建立分词模型的方法及装置

基本信息

申请号 CN201610881290.4 申请日 -
公开(公告)号 CN106407186B 公开(公告)日 2019-04-30
申请公布号 CN106407186B 申请公布日 2019-04-30
分类号 G06F17/28(2006.01)I; G06F17/27(2006.01)I 分类 计算;推算;计数;
发明人 田亮 申请(专利权)人 新译信息科技(深圳)有限公司
代理机构 北京同立钧成知识产权代理有限公司 代理人 新译信息科技(深圳)有限公司
地址 518057 广东省深圳市高新技术产业园清华信息港科研楼909室
法律状态 -

摘要

摘要 本发明实施例提供一种建立分词模型的方法及装置,其中,该方法包括:将第一语料中的每个字符与第二语料中的单词进行对齐,获得第一语料和所述第二语料之间的对齐关系,其中所述第一语料为词与词之间没有空格划分边界的语料;根据所述第一语料和所述第二语料之间的对齐关系,确定所述第一语料中词的边界信息;根据所述第一语料中词的边界信息,训练生成分词模型。本发明实施例提供的建立分词模型的方法及装置,能够提高分词准确性。特别是词与词之间没有空格区分边界的语料的分词准确性。