一种表格型文本图片的识别方法和系统

基本信息

申请号 CN202110969330.1 申请日 -
公开(公告)号 CN113723252A 公开(公告)日 2021-11-30
申请公布号 CN113723252A 申请公布日 2021-11-30
分类号 G06K9/00(2006.01)I;G06K9/32(2006.01)I;G06K9/62(2006.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I 分类 计算;推算;计数;
发明人 朱迦榕;柳奉奇;徐洪义;龚靖渝;马利庄 申请(专利权)人 上海财联社金融科技有限公司
代理机构 北京睿博行远知识产权代理有限公司 代理人 董自亮
地址 200000上海市徐汇区虹桥路3号1601-1606室
法律状态 -

摘要

摘要 本发明公开了一种表格型文本图片的识别方法,首先将表格型文本图片进行灰度化处理得到灰度图,对灰度图运用自动阈值的二值化处理,然后使用霍夫变换提取表格横竖线结构,得到横竖线坐标及单元格;然后对表格型文本图片中的文本内容进行检测并得到具有标签的文本图像,所述标签具有坐标;对文本图像进行字符识别;再将步骤S1的单元格与步骤S2的标签进行自动坐标匹配,并将步骤S2的字符识别结果输出到相应单元格内。该方法用于实现金融资讯扫描文件等内容的识别,能够准备识别表格和其中的文本内容。