分词词库的构建方法、分词方法、装置及存储介质

基本信息

申请号 CN202010218109.8 申请日 -
公开(公告)号 CN111428475A 公开(公告)日 2020-07-17
申请公布号 CN111428475A 申请公布日 2020-07-17
分类号 G06F40/242;G06F40/289;G06N3/04;G06N3/08 分类 -
发明人 齐全;陈道远;王博 申请(专利权)人 苏州蓝海彤翔系统科技有限公司
代理机构 北京三友知识产权代理有限公司 代理人 周达;刘飞
地址 215000 江苏省苏州市高新区科技城锦峰路158号101park8幢
法律状态 -

摘要

摘要 本说明书实施例提供一种分词词库的构建方法、分词方法、装置及存储介质。所述方法包括:将待分词文本划分为多个子文本;获取第一候选字符串集合;其中,所述第一候选字符串集合包括所述多个子文本中长度小于预设值的字符串;根据通用词库对所述第一候选字符串集合中的字符串进行筛选,得到第二候选字符串集合;将所述第二候选字符串集合输入至预设的模型中,得到候选分词词库;其中,所述候选分词词库包括多个候选词和所述多个候选词对应的权值;根据所述候选分词词库构建分词词库,从而提高未登录词和歧义识别的准确性,提高分词的准确率。