一种基于OCR的文字图像识别方法及装置

基本信息

申请号 CN201911337453.2 申请日 -
公开(公告)号 CN111079768A 公开(公告)日 2020-04-28
申请公布号 CN111079768A 申请公布日 2020-04-28
分类号 G06K9/34;G06F40/232;G06F40/289 分类 计算;推算;计数;
发明人 胡茜;刘宁;吴志超;王静 申请(专利权)人 北京爱医生智慧医疗科技有限公司
代理机构 北京路浩知识产权代理有限公司 代理人 张睿
地址 102206 北京市昌平区科技园区生命园路9号院1号楼205室
法律状态 -

摘要

摘要 本发明实施例提供一种基于OCR的文字图像识别方法及装置。所述方法包括对待识别文字图像执行OCR和分词处理,得到待纠错文本;将待纠错文本中的相邻散串字符拼接为合并字符;根据所述合并字符,以及与散串字符对应的混淆集得到候选语句列表;根据自然语言概率统计模型选取概率最大的候选语句作为纠错结果文本,本发明实施例通过对待识别文字图像执行OCR识别和分词处理得到包含散串字符的待纠错文本,再将连续散串字符拼接为合并字符,或者用散串字符对应的混淆集的替换文字进行替换,得到候选语句列表,最后根据自然语言概率统计模型确定纠错结果文本,从而能够更加简单、准确得对文字图像进行识别。