一种错别字检测方法及装置

基本信息

申请号 CN202110459221.5 申请日 -
公开(公告)号 CN112883717A 公开(公告)日 2021-06-01
申请公布号 CN112883717A 申请公布日 2021-06-01
分类号 G06F40/232;G06F40/211;G06F40/289;G16H10/60 分类 计算;推算;计数;
发明人 胡文;陈联忠;胡可云 申请(专利权)人 北京嘉和海森健康科技有限公司
代理机构 北京集佳知识产权代理有限公司 代理人 李伟
地址 100085 北京市海淀区上地信息产业基地开拓路7号1幢二层2208室
法律状态 -

摘要

摘要 本申请提供一种错别字检测方法及装置,应用于中文电子病历中错别字的识别,该方法通过获取待检测文本,并对所述待检测文本进行分句处理,得到至少一个待处理文本;根据N‑gram语言模型,对每个所述待处理文本进行打分,得到每个所述待处理文本对应的分数;将每个所述待处理文本对应的分数与预设阈值进行比较;当所述待处理文本对应的分数小于预设阈值时,确定所述待检测文本中存在错别字,并定位错别字的位置。本申请基于2gram,3gram组合打分,对待检测文本中的字符进行错别字检测,可高速有效对医学语料数据进行错别字检测,为后续产品的研发打下基础;另外,对于不同的数据环境,可以使用阈值搜索方法调整阈值标准,适用性强。