自学习分词方法、装置、计算机设备和存储介质
基本信息
申请号 | CN202010246648.2 | 申请日 | - |
公开(公告)号 | CN111488736A | 公开(公告)日 | 2020-08-04 |
申请公布号 | CN111488736A | 申请公布日 | 2020-08-04 |
分类号 | G06F40/289(2020.01)I | 分类 | - |
发明人 | 张浩;甘露 | 申请(专利权)人 | 上海七印信息科技有限公司 |
代理机构 | 上海天翔知识产权代理有限公司 | 代理人 | 上海七印信息科技有限公司 |
地址 | 201306上海市浦东新区泥城镇云汉路979号2楼 | ||
法律状态 | - |
摘要
摘要 | 本发明公开的一种自学习分词方法,包括以下步骤:获取未命中搜索热词;鉴别所述未命中搜索热词是否需要进行分词;若需要进行分词,则将所述未命中搜索热词添加至远程分词词典;定期扫描远程分词词典,并判断远程分词词典发生的改变量是否满足重建索引条件;若满足重新索引条件,则分节点重新建立搜索索引;当分节点重新建立搜索索引完成后,对分节点中的搜索热词词库进行重置处理。还公开了一种实现上述自学习分词方法的装置、计算机设备以及存储介质。本发明采用实时的自学习的方式选择热词,更新远程分词字典,实现ElasticSearch搜索服务的无间断更新,有效地提高搜索准确度,通过优化词典提高分词准确性。 |
