面向PDF表格的自动识别系统和方法
基本信息
申请号 | CN201811627644.8 | 申请日 | - |
公开(公告)号 | CN109670477B | 公开(公告)日 | 2021-02-26 |
申请公布号 | CN109670477B | 申请公布日 | 2021-02-26 |
分类号 | G06K9/00(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 张长虹;冯卫强;张友豪;罗万昆;王瑞;贺晓燕 | 申请(专利权)人 | 上海大智慧财汇数据科技有限公司 |
代理机构 | 上海段和段律师事务所 | 代理人 | 李佳俊;郭国中 |
地址 | 200120上海市浦东新区自由贸易试验区郭守敬路498号12幢21501-21507室 | ||
法律状态 | - |
摘要
摘要 | 本发明提供一种面向PDF表格的自动识别系统和方法,扫描PDF格式的报表,识别出PDF文件中的表格内容、文字内容;完整保留原始表格样式,根据业务需求解析表格内容,对原始表格样式进行调整,得到调整后表格样式;自动识别表格内容中的文本和表头,以结构化形式输出,对得到的结构化入库数据进行筛选,根据业务需求过滤无效信息,校验表头各个科目数据的业务平衡性,得到校验合格数据并录入数据库;根据原始表格样式或者调整后表格样式对校验合格数据进行展示,并提供表格下载,得到excel格式的表格。实现PDF公告文件中表格的自动识别,结合实际金融业务处理的需求对表格进行个性化调整,解决现阶段数据快速增长报表处理速度问题。 |
