面向PDF表格的自动识别系统和方法

基本信息

申请号 CN201811627644.8 申请日 -
公开(公告)号 CN109670477B 公开(公告)日 2021-02-26
申请公布号 CN109670477B 申请公布日 2021-02-26
分类号 G06K9/00(2006.01)I 分类 计算;推算;计数;
发明人 张长虹;冯卫强;张友豪;罗万昆;王瑞;贺晓燕 申请(专利权)人 上海大智慧财汇数据科技有限公司
代理机构 上海段和段律师事务所 代理人 李佳俊;郭国中
地址 200120上海市浦东新区自由贸易试验区郭守敬路498号12幢21501-21507室
法律状态 -

摘要

摘要 本发明提供一种面向PDF表格的自动识别系统和方法,扫描PDF格式的报表,识别出PDF文件中的表格内容、文字内容;完整保留原始表格样式,根据业务需求解析表格内容,对原始表格样式进行调整,得到调整后表格样式;自动识别表格内容中的文本和表头,以结构化形式输出,对得到的结构化入库数据进行筛选,根据业务需求过滤无效信息,校验表头各个科目数据的业务平衡性,得到校验合格数据并录入数据库;根据原始表格样式或者调整后表格样式对校验合格数据进行展示,并提供表格下载,得到excel格式的表格。实现PDF公告文件中表格的自动识别,结合实际金融业务处理的需求对表格进行个性化调整,解决现阶段数据快速增长报表处理速度问题。