分词的方法及装置
基本信息
申请号 | CN201610051438.1 | 申请日 | - |
公开(公告)号 | CN105718586B | 公开(公告)日 | 2018-12-28 |
申请公布号 | CN105718586B | 申请公布日 | 2018-12-28 |
分类号 | G06F17/30 | 分类 | 计算;推算;计数; |
发明人 | 黄金才;陈发君;刘忠;程光权;朱承;修保新;陈超;冯旸赫;孟果;易作天 | 申请(专利权)人 | 长沙市源本信息科技有限公司 |
代理机构 | 北京中济纬天专利代理有限公司 | 代理人 | 中国人民解放军国防科学技术大学;长沙市源本信息科技有限公司 |
地址 | 410073 湖南省长沙市开福区德雅路109号 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种分词方法和装置,装置包括包括用于训练词标注模型的分词&标注模块和CRF训练模块,以及用于分词应用的初始分词模块、词标注模块和词合并模块。首先使用CRF训练词标注模型:训练词标注模型的方法为:采集语料库,并使用N‑最短路径分词方法对语料库进行分词,然后使用领域词典对语料库分词结果进行标注,将标注后的语料库使用CRF工具进行训练得到词标注模型;得到词标注模型后即可进入分词应用,分词应用其方法为:首先使用N‑最短路径分词方法对文本进行初始分词,对初始分词结果基于词标注模型进行序列标注,将包含特定标注的词进行合并得到最终分词结果。采用CRF进行词标注,考虑了全局上下文信息,有利于提高词合并的准确性。 |
