一种自动生成训练数据的错别字校对方法及装置

基本信息

申请号 CN202110190708.8 申请日 -
公开(公告)号 CN112560451B 公开(公告)日 2021-05-14
申请公布号 CN112560451B 申请公布日 2021-05-14
分类号 G06F40/232;G06F40/289;G06F40/247 分类 计算;推算;计数;
发明人 蓝建敏;池沐霖 申请(专利权)人 京华信息科技股份有限公司
代理机构 广州三环专利商标代理有限公司 代理人 郭浩辉;颜希文
地址 510520 广东省广州市天河区高普路138号京华信息大楼中座
法律状态 -

摘要

摘要 本发明公开了一种自动生成训练数据的错别字校对方法及装置,上述方法包括对给定语料进行分词处理,获得若干第一词组;根据各第一词组生成若干易混淆词集;从给定语料的若干第一词组中选定待替换第一词组,继而将核心词组与待替换第一词组相同的易混淆词集作为选定词集;将给定语料中的待替换第一词组替换为选定词集中的相似词组生成错误语料;将给定语料与错误语料作为训练数据集,根据训练数据集训练错别字校对模型;根据错别字校对模型对待校对文本进行校对。通过实施本发明能够解决现有人工收集错误语料耗时长,效率低的问题。