一种自动生成训练数据的错别字校对方法及装置专利查询专利号|摘要-满商公司网

一种自动生成训练数据的错别字校对方法及装置

基本信息

摘要

摘要	本发明公开了一种自动生成训练数据的错别字校对方法及装置，上述方法包括对给定语料进行分词处理，获得若干第一词组；根据各第一词组生成若干易混淆词集；从给定语料的若干第一词组中选定待替换第一词组，继而将核心词组与待替换第一词组相同的易混淆词集作为选定词集；将给定语料中的待替换第一词组替换为选定词集中的相似词组生成错误语料；将给定语料与错误语料作为训练数据集，根据训练数据集训练错别字校对模型；根据错别字校对模型对待校对文本进行校对。通过实施本发明能够解决现有人工收集错误语料耗时长，效率低的问题。