一种基于哈希算法的中文分词方法
基本信息
申请号 | CN201910312465.3 | 申请日 | - |
公开(公告)号 | CN110046219A | 公开(公告)日 | 2019-07-23 |
申请公布号 | CN110046219A | 申请公布日 | 2019-07-23 |
分类号 | G06F16/31;G06F16/36 | 分类 | 计算;推算;计数; |
发明人 | 汪齐顺 | 申请(专利权)人 | 合肥天毅网络传媒有限公司 |
代理机构 | 上海精晟知识产权代理有限公司 | 代理人 | 合肥天毅网络传媒有限公司 |
地址 | 230000 安徽省合肥市高新区信息产业基地桑夏1#综合楼323室 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种基于哈希算法的中文分词方法,涉及自然语言处理领域。本发明包括如下步骤:S1:在搜索引擎上配置分词器并建立字典结构;S2:监测到用户回车,获取输入框中首个字;S3:首个字输入字典进行初次查找筛选;S4:将字典中所有首字相同的词构成一棵树;S5:将词语中的第二个字放在树的第二层并创建哈希索引表;S6:对剩下的字进行Hash查找;S7:IK读取到新的词库后通知搜索引擎更新;S8:搜索引擎对内存中的字典信息进行更新。本发明通过创建词典存储机制对首字进行Hash查找,建立树形结果对剩下的字进行Hash查找的词典结构和算法,并利用IK分词更新搜索引擎,提高了中文分词效率,降低了系统的复杂程度,减少了索引的冗余程度。 |
