一种针对PDF文档表格提取优化方法及系统

基本信息

申请号 CN202010209797.1 申请日 -
公开(公告)号 CN111340000A 公开(公告)日 2020-06-26
申请公布号 CN111340000A 申请公布日 2020-06-26
分类号 G06K9/00(2006.01)I;G06N3/04(2006.01)I 分类 -
发明人 李舟军;肖武魁;刘俊杰;陈小明;覃维;王博洋 申请(专利权)人 深圳智能思创科技有限公司
代理机构 深圳市恒程创新知识产权代理有限公司 代理人 深圳智能思创科技有限公司
地址 518000广东省深圳市南山区南头街道莲城社区深南大道10128号南山软件园A2108-2107
法律状态 -

摘要

摘要 本发明公开一种针对PDF文档表格提取优化方法及系统,该系统包括:表格检测模块、表格角检测模块、表格角优化模块和表格边界优化。表格检测模块识别和定位表格;表格角检测模块识别和定位表格角;表格角优化模块用于表格角分组和过滤劣质表格角;表格边界优化模块用于融合表格检测和表格角优化结果对表格定位结果进行优化。该方法包括步骤S1、表格检测;步骤S2、表格角点检测;步骤S3、表格角优化包括对表格角点分组和表格角点过滤;步骤S4、表格边界优化。本发明实现了对于PDF文档中表格数据的高质量自动化提取,为自动化信息提取提供了数据支持,从而节约人力物力、提高工作效率。