文本纠错方法、装置、电子设备及计算机可读存储介质

基本信息

申请号 CN202111026986.6 申请日 -
公开(公告)号 CN113705203A 公开(公告)日 2021-11-26
申请公布号 CN113705203A 申请公布日 2021-11-26
分类号 G06F40/232(2020.01)I;G06F40/216(2020.01)I;G06F40/289(2020.01)I 分类 计算;推算;计数;
发明人 董慧智;王晓平;金明;孟令波;陈琪琪 申请(专利权)人 上海极链科技发展集团有限公司
代理机构 北京超凡宏宇专利代理事务所(特殊普通合伙) 代理人 杨奇松
地址 202150上海市崇明区中兴镇汲浜公路39号21号楼1103室
法律状态 -

摘要

摘要 本申请提供一种文本纠错方法、装置、电子设备及计算机可读存储介质,属于数据处理技术的领域,该文本纠错方法包括:对待处理文本进行分词,得到分词结果,并将分词结果中连续的孤立字单元进行拼接得到变体词,再查询预先构建的变体词库中是否包含所述变体词,若不包含,则对待处理文本中的变体词进行掩膜得到掩码文本,采用掩码语言模型,对掩码文本中的掩码区域进行预测,得到多个预测词,接着判断各预测词中是否存在与变体词匹配的预测词,若是,则将掩码文本中的变体词替换为该匹配的预测词,以得到纠错后的文本,结合变体词库中变体词查询和掩码语言模型的预测,实现双重纠错,从而能够提高对文本的纠错效果。