自学习分词方法、装置、计算机设备和存储介质

基本信息

申请号 CN202010246648.2 申请日 -
公开(公告)号 CN111488736A 公开(公告)日 2020-08-04
申请公布号 CN111488736A 申请公布日 2020-08-04
分类号 G06F40/289(2020.01)I 分类 -
发明人 张浩;甘露 申请(专利权)人 上海七印信息科技有限公司
代理机构 上海天翔知识产权代理有限公司 代理人 上海七印信息科技有限公司
地址 201306上海市浦东新区泥城镇云汉路979号2楼
法律状态 -

摘要

摘要 本发明公开的一种自学习分词方法,包括以下步骤:获取未命中搜索热词;鉴别所述未命中搜索热词是否需要进行分词;若需要进行分词,则将所述未命中搜索热词添加至远程分词词典;定期扫描远程分词词典,并判断远程分词词典发生的改变量是否满足重建索引条件;若满足重新索引条件,则分节点重新建立搜索索引;当分节点重新建立搜索索引完成后,对分节点中的搜索热词词库进行重置处理。还公开了一种实现上述自学习分词方法的装置、计算机设备以及存储介质。本发明采用实时的自学习的方式选择热词,更新远程分词字典,实现ElasticSearch搜索服务的无间断更新,有效地提高搜索准确度,通过优化词典提高分词准确性。