基于图像识别技术的行业表格数字化处理方法

基本信息

申请号 CN201910715902.6 申请日 -
公开(公告)号 CN110413979A 公开(公告)日 2019-11-05
申请公布号 CN110413979A 申请公布日 2019-11-05
分类号 G06F17/24(2006.01)I; G06K9/00(2006.01)I; G06K9/34(2006.01)I 分类 计算;推算;计数;
发明人 李炯梅; 李婵一; 杨彦; 薛龙江; 王祥 申请(专利权)人 金税桥大数据科技股份有限公司
代理机构 - 代理人 -
地址 100000 北京市海淀区科学院南路2号C座N506-N508
法律状态 -

摘要

摘要 本发明公开了一种基于图像识别技术的行业表格数字化处理方法,通过加载深度学习训练出的OCR文字检测模型和文字识别模型以及各行业相关各类表格的模型数据,区分普通的图片或者pdf类型的文件,对于pdf类型文件还可以根据每页的内容区分每页的表格属于那种报表类型;其次检测表格中的文字区域,预测表格的形态,对于没有表格的文件根据文本预测出排列的规则,根据用户指定的类型,或者系统内置类型自动生成新的表格。对检测出的表格内容进行文字识别,提取关键字以及数值,形成数字化的输出结果;从而为后续的应用提供可靠的数据支持,应用在财税类型这个最为复杂的行业中,可大大提高工作效率。