一种基于哈希算法的中文分词方法

基本信息

申请号 CN201910312465.3 申请日 -
公开(公告)号 CN110046219A 公开(公告)日 2019-07-23
申请公布号 CN110046219A 申请公布日 2019-07-23
分类号 G06F16/31;G06F16/36 分类 计算;推算;计数;
发明人 汪齐顺 申请(专利权)人 合肥天毅网络传媒有限公司
代理机构 上海精晟知识产权代理有限公司 代理人 合肥天毅网络传媒有限公司
地址 230000 安徽省合肥市高新区信息产业基地桑夏1#综合楼323室
法律状态 -

摘要

摘要 本发明公开了一种基于哈希算法的中文分词方法,涉及自然语言处理领域。本发明包括如下步骤:S1:在搜索引擎上配置分词器并建立字典结构;S2:监测到用户回车,获取输入框中首个字;S3:首个字输入字典进行初次查找筛选;S4:将字典中所有首字相同的词构成一棵树;S5:将词语中的第二个字放在树的第二层并创建哈希索引表;S6:对剩下的字进行Hash查找;S7:IK读取到新的词库后通知搜索引擎更新;S8:搜索引擎对内存中的字典信息进行更新。本发明通过创建词典存储机制对首字进行Hash查找,建立树形结果对剩下的字进行Hash查找的词典结构和算法,并利用IK分词更新搜索引擎,提高了中文分词效率,降低了系统的复杂程度,减少了索引的冗余程度。