适用于多用户自定义字典的中文分词词频方法及装置
基本信息
申请号 | CN202110736452.6 | 申请日 | - |
公开(公告)号 | CN113486660A | 公开(公告)日 | 2021-10-08 |
申请公布号 | CN113486660A | 申请公布日 | 2021-10-08 |
分类号 | G06F40/289(2020.01)I;G06F40/216(2020.01)I;G06F16/33(2019.01)I | 分类 | 计算;推算;计数; |
发明人 | 王平;潘成;赵鹏 | 申请(专利权)人 | 上海众言网络科技有限公司 |
代理机构 | 北京知果之信知识产权代理有限公司 | 代理人 | 卜荣丽;李志刚 |
地址 | 200030上海市徐汇区宜山路700号B2栋22层 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种适用于多用户自定义字典的中文分词词频方法及装置,其中方法包括:初始化hanlp分词服务;采用Aho‑Corasick算法,根据第一文本和多用户自定义字典生成各用户自定义字典词频结果;根据第一文本和多用户自定义字典,通过hanlp分词服务生成第二文本分词词频结果;合并所述各用户自定义字典词频结果和所述第二文本分词词频结果,得到最终中文分词词频结果。本发明通过Aho‑Corasick算法快速定位用户自定义字典在文本中的位置,并将原始文本替换为空格字符的方法,对于多用户自定义字典的分词服务,只需要一次初始化操作,即可实现高并发地支持多个用户的自定义字典的高性能分词词频服务。 |
