建立分词模型的方法及装置
基本信息
申请号 | CN201610881290.4 | 申请日 | - |
公开(公告)号 | CN106407186B | 公开(公告)日 | 2019-04-30 |
申请公布号 | CN106407186B | 申请公布日 | 2019-04-30 |
分类号 | G06F17/28(2006.01)I; G06F17/27(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 田亮 | 申请(专利权)人 | 新译信息科技(深圳)有限公司 |
代理机构 | 北京同立钧成知识产权代理有限公司 | 代理人 | 新译信息科技(深圳)有限公司 |
地址 | 518057 广东省深圳市高新技术产业园清华信息港科研楼909室 | ||
法律状态 | - |
摘要
摘要 | 本发明实施例提供一种建立分词模型的方法及装置,其中,该方法包括:将第一语料中的每个字符与第二语料中的单词进行对齐,获得第一语料和所述第二语料之间的对齐关系,其中所述第一语料为词与词之间没有空格划分边界的语料;根据所述第一语料和所述第二语料之间的对齐关系,确定所述第一语料中词的边界信息;根据所述第一语料中词的边界信息,训练生成分词模型。本发明实施例提供的建立分词模型的方法及装置,能够提高分词准确性。特别是词与词之间没有空格区分边界的语料的分词准确性。 |
