停用词的挖掘方法和装置、搜索方法和装置、评测方法和装置

基本信息

申请号 CN201210572702.8 申请日 -
公开(公告)号 CN103902552B 公开(公告)日 2019-03-26
申请公布号 CN103902552B 申请公布日 2019-03-26
分类号 G06F16/951(2019.01)I; G06F16/953(2019.01)I 分类 计算;推算;计数;
发明人 赵耀; 胡熠; 刘磊; 程佳 申请(专利权)人 深圳市世纪光速信息技术有限公司
代理机构 广州华进联合专利商标代理有限公司 代理人 何平;邓云鹏
地址 518057 广东省深圳市南山区粤海街道科技中一路腾讯大厦16层
法律状态 -

摘要

摘要 一种停用词的挖掘方法,包括以下步骤:获取查询日志;获取查询日志中记录的查询串中查询词的逆向文档频率、查询词的相对词权重、因修改查询串行为产生的查询词集合、因触发行为产生的查询串与网页地址的对应关系集中至少一种属性信息,并根据所述属性信息生成停用词集。此外,还提供了停用词的挖掘装置、搜索方法和搜索装置、停用词的挖掘算法的评测方法和装置。上述停用词的挖掘方法和装置,提高了停用词的准确率;上述搜索方法和装置通过去掉停用词把原始的查询串简化,可搜索到更多相关的网页,提高了搜索的准确率;上述停用词的挖掘算法的评测方法和装置采用交叉验证的方式进行评测,比较得出最优的算法。