一种基于拼音相同或相似的中文文本纠错方法
基本信息
申请号 | CN202010496115.X | 申请日 | - |
公开(公告)号 | CN111753529B | 公开(公告)日 | 2021-07-27 |
申请公布号 | CN111753529B | 申请公布日 | 2021-07-27 |
分类号 | G06F40/232(2020.01);G06F40/289(2020.01) | 分类 | 计算;推算;计数; |
发明人 | 何卓威 | 申请(专利权)人 | 杭州云嘉云计算有限公司 |
代理机构 | 杭州杭诚专利事务所有限公司 | 代理人 | 尉伟敏 |
地址 | 311100浙江省杭州市余杭区五常街道联创街188号5号楼401室 | ||
法律状态 | - |
摘要
摘要 | 本发明提出一种基于拼音相同或相似的中文文本纠错方法,包括以下步骤:S1,在传统ngrams语言模型基础上做调整,建立粒度为单个中文字符的中文字结构语言模型;S2,对待纠错语句进行候选处理,生成候选序列;S3,基于混淆集和MAD算法对候选序列进行检错,获得待纠错语句候选序列;S4,基于中文字结构语言模型的最大后验概率,使用双选Viterbi算法解码输出纠错结果。本发明相对于传统方法词粒度准确率较高,纠错速度较传统方法快。 |
