一种基于拼音相同或相似的中文文本纠错方法

基本信息

申请号 CN202010496115.X 申请日 -
公开(公告)号 CN111753529B 公开(公告)日 2021-07-27
申请公布号 CN111753529B 申请公布日 2021-07-27
分类号 G06F40/232(2020.01);G06F40/289(2020.01) 分类 计算;推算;计数;
发明人 何卓威 申请(专利权)人 杭州云嘉云计算有限公司
代理机构 杭州杭诚专利事务所有限公司 代理人 尉伟敏
地址 311100浙江省杭州市余杭区五常街道联创街188号5号楼401室
法律状态 -

摘要

摘要 本发明提出一种基于拼音相同或相似的中文文本纠错方法,包括以下步骤:S1,在传统ngrams语言模型基础上做调整,建立粒度为单个中文字符的中文字结构语言模型;S2,对待纠错语句进行候选处理,生成候选序列;S3,基于混淆集和MAD算法对候选序列进行检错,获得待纠错语句候选序列;S4,基于中文字结构语言模型的最大后验概率,使用双选Viterbi算法解码输出纠错结果。本发明相对于传统方法词粒度准确率较高,纠错速度较传统方法快。