无监督分词模型训练方法及装置

基本信息

申请号 CN201710074389.8 申请日 -
公开(公告)号 CN106708807B 公开(公告)日 2019-11-15
申请公布号 CN106708807B 申请公布日 2019-11-15
分类号 G06F17/27 分类 计算;推算;计数;
发明人 姚佳 申请(专利权)人 广东惠禾科技发展有限公司
代理机构 北京超凡志成知识产权代理事务所(普通合伙) 代理人 广东惠禾科技发展有限公司
地址 518054广东省深圳市南山区粤海街道学府路2388号怡化金融科技大厦14楼01-02单元
法律状态 -

摘要

摘要 本发明提供一种无监督分词模型训练方法及装置,应用于分词模型,所述分词模型包括一词库,所述方法包括:获取目标训练语句;确定一分词最大字数,将所述分词最大字数作为分词提取字数;从所述目标训练语句中提取文字个数为所述分词提取字数的语句片段做为目标语句片段,将该目标语句片段与所述词库中已存的语句片段进行比对;当所述词库中存在与所述目标语句片段相同的语句片段时,更新所述词库中该语句片段的出现频次,并将该目标语句片段从所述目标训练语句中剔除;重复对目标语句片段的提取及比对的步骤。如此,高效地实现了在无监督的方式下对分词模型进行训练,并且得到分析模型对歧义语句的辨析能力强。