基于图像识别技术的行业表格数字化处理方法
基本信息
申请号 | CN201910715902.6 | 申请日 | - |
公开(公告)号 | CN110413979A | 公开(公告)日 | 2019-11-05 |
申请公布号 | CN110413979A | 申请公布日 | 2019-11-05 |
分类号 | G06F17/24(2006.01)I; G06K9/00(2006.01)I; G06K9/34(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 李炯梅; 李婵一; 杨彦; 薛龙江; 王祥 | 申请(专利权)人 | 金税桥大数据科技股份有限公司 |
代理机构 | - | 代理人 | - |
地址 | 100000 北京市海淀区科学院南路2号C座N506-N508 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种基于图像识别技术的行业表格数字化处理方法,通过加载深度学习训练出的OCR文字检测模型和文字识别模型以及各行业相关各类表格的模型数据,区分普通的图片或者pdf类型的文件,对于pdf类型文件还可以根据每页的内容区分每页的表格属于那种报表类型;其次检测表格中的文字区域,预测表格的形态,对于没有表格的文件根据文本预测出排列的规则,根据用户指定的类型,或者系统内置类型自动生成新的表格。对检测出的表格内容进行文字识别,提取关键字以及数值,形成数字化的输出结果;从而为后续的应用提供可靠的数据支持,应用在财税类型这个最为复杂的行业中,可大大提高工作效率。 |
