一种中文分词纠错方法、离线训练装置及在线处理装置
基本信息
申请号 | CN201510526686.2 | 申请日 | - |
公开(公告)号 | CN106484670B | 公开(公告)日 | 2018-12-25 |
申请公布号 | CN106484670B | 申请公布日 | 2018-12-25 |
分类号 | G06F17/27 | 分类 | 计算;推算;计数; |
发明人 | 吴尉林;许欢庆;郭永福;陈沛 | 申请(专利权)人 | 北京中搜云商网络技术有限公司 |
代理机构 | 北京安博达知识产权代理有限公司 | 代理人 | 北京中搜云商网络技术有限公司 |
地址 | 100086 北京市海淀区北三环西路43号院2号楼5层08-09号 | ||
法律状态 | - |
摘要
摘要 | 本发明涉及一种中文分词纠错方法、离线训练装置及在线处理装置,方法包括:从语料库上自动训练得到分词纠错器,比较当前分词结果集与正确的分词结果集,对错误的分词结果进行统计,自动总结出纠错规则,并对每条纠错规则计算统计指标,过滤不可靠的纠错规则,这样不停迭代计算,不断发现新的纠错规则从而构建纠错规则库,再根据纠错规则库对在线句子进行分词纠错处理,本发明提供一种中文分词纠错方法、离线训练装置及在线处理装置能够通过构建纠错规则库有效的提高中文分词的精准性,同时能够不断适应新词出现的需求。 |
