问题去重方法、装置、电子设备和计算机可读存储介质

基本信息

申请号 CN201910457996.1 申请日 -
公开(公告)号 CN110134777B 公开(公告)日 2021-11-26
申请公布号 CN110134777B 申请公布日 2021-11-26
分类号 G06F16/332;G06F16/35 分类 计算;推算;计数;
发明人 王卓然;亓超;马宇驰;陈华荣;秦海龙;郭伟 申请(专利权)人 三角兽(北京)科技有限公司
代理机构 北京市立方律师事务所 代理人 张筱宁
地址 518057 广东省深圳市南山区高新区科技中一路腾讯大厦35层
法律状态 -

摘要

摘要 本申请实施例提供了一种问题去重方法、装置、电子设备及计算机可读存储介质。该方法包括:对多个问题语料分别进行分词操作得到每一问题语料对应的多个问题词汇,并基于第一数量的基础问题语料计算各个问题词汇的词频‑逆文本频率,基于各个问题语料分别对应的多个问题词汇的词频‑逆文本频率,对多个问题语料进行归类处理,得到多个问题类别,基于各个问题类别分别对应的至少一个问题语料,确定各个问题类别分别对应的标准问题。本申请实施例实现了计算得到问题类别的数量,具有较高的准确性,进一步基于一个问题类别得到对应的一个标准问题,能有效的针对大数量的问题进行去重处理。