分词的方法及装置

基本信息

申请号 CN201610051438.1 申请日 -
公开(公告)号 CN105718586A 公开(公告)日 2016-06-29
申请公布号 CN105718586A 申请公布日 2016-06-29
分类号 G06F17/30(2006.01)I 分类 计算;推算;计数;
发明人 黄金才;陈发君;刘忠;程光权;朱承;修保新;陈超;冯旸赫;孟果;易作天 申请(专利权)人 长沙市源本信息科技有限公司
代理机构 北京中济纬天专利代理有限公司 代理人 中国人民解放军国防科学技术大学;长沙市源本信息科技有限公司
地址 410073 湖南省长沙市开福区德雅路109号
法律状态 -

摘要

摘要 本发明公开了一种分词方法和装置,装置包括用于训练词标注模型的分词&标注模块和CRF训练模块,以及用于分词应用的初始分词模块、词标注模块和词合并模块。首先使用CRF训练词标注模型:训练词标注模型的方法为:采集语料库,并使用N?最短路径分词方法对语料库进行分词,然后使用领域词典对语料库分词结果进行标注,将标注后的语料库使用CRF工具进行训练得到词标注模型;得到词标注模型后即可进入分词应用,分词应用其方法为:首先使用N?最短路径分词方法对文本进行初始分词,对初始分词结果基于词标注模型进行序列标注,将包含特定标注的词进行合并得到最终分词结果。采用CRF进行词标注,考虑了全局上下文信息,有利于提高词合并的准确性。