一种实现跨领域的中文文本纠错方法和系统
基本信息
申请号 | CN202110383985.0 | 申请日 | - |
公开(公告)号 | CN113076739A | 公开(公告)日 | 2021-07-06 |
申请公布号 | CN113076739A | 申请公布日 | 2021-07-06 |
分类号 | G06F40/232(2020.01)I;G06F40/289(2020.01)I;G06N3/04(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 宋正博;肖龙源;李稀敏;李威 | 申请(专利权)人 | 厦门快商通科技股份有限公司 |
代理机构 | 厦门市首创君合专利事务所有限公司 | 代理人 | 连耀忠;王婷婷 |
地址 | 361000福建省厦门市软件园三期诚毅北大街63号1301单元 | ||
法律状态 | - |
摘要
摘要 | 本发明提供一种实现跨领域的中文文本纠错方法,包括如下步骤:采用序列标注的检错模型结合通用领域的监督数据训练模型进行错误检测;通过编辑距离或者Jaccard距离在词表的拼音库中进行错误找回,获得错误替换集合;将错误替换集合中的词语依次替换错误,采用rnnlm语言模型来对替换错误后的句子进行困惑度计算,根据计算的句子困惑度确定错误替换集合中正确的词语,完成中文文本纠错;本发明提出一种实现跨领域的中文文本纠错方法,即一套错误检测→候选召回→纠错排序的模型,能够更通用地处理跨领域文本的纠错问题,通过深度学习训练的语言模型来召回文本,能够提升召回文本的困惑度,并且模型相互解耦合,提升了效率。 |
