基于OCR技术的文本纠正方法、装置、设备以及存储介质

基本信息

申请号 CN202111089125.2 申请日 -
公开(公告)号 CN113850251A 公开(公告)日 2021-12-28
申请公布号 CN113850251A 申请公布日 2021-12-28
分类号 G06K9/20(2006.01)I;G06K9/32(2006.01)I;G06F16/903(2019.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I 分类 计算;推算;计数;
发明人 徐波 申请(专利权)人 广州多益网络股份有限公司
代理机构 广州骏思知识产权代理有限公司 代理人 潘桂生
地址 510530广东省广州市萝岗区伴河路90号自编一栋305房
法律状态 -

摘要

摘要 本发明涉及文本纠正技术领域,特别涉及一种基于OCR技术的文本纠正方法、装置、设备以及存储介质,所述方法包括:获取基于OCR技术识别图片得到的第一文本数据、所述第一文本数据中每个字符的置信度以及第一文本数据中每个字符的前十个字符组成的候选字符集,根据所述第一文本数据以及预设的文本预纠正深度学习模型,获取第二文本数据;对所述预纠正后的字符串序列中置信度高于预设的置信度阈值的字符进行剔除,根据剔除后的所述预纠正后的字符串序列,对所述第一文本数据的相应字符进行替换,获取第三文本数据;利用预设的语言模型对所述第一文本数据和所述第三文本数据进行流畅度评价,将流畅度较高的文本数据作为识别结果输出,获取纠正文本数据。