PDF文件中表格信息的提取方法

基本信息

申请号 CN201811630768.1 申请日 -
公开(公告)号 CN109635268A 公开(公告)日 2019-04-16
申请公布号 CN109635268A 申请公布日 2019-04-16
分类号 G06F17/24(2006.01)I; G06F17/27(2006.01)I 分类 计算;推算;计数;
发明人 孟泽洋; 王俊 申请(专利权)人 南京吾道知信信息技术有限公司
代理机构 北京德崇智捷知识产权代理有限公司 代理人 南京吾道知信信息技术有限公司
地址 210000 江苏省南京市江宁区东山街道东麒路33号
法律状态 -

摘要

摘要 本发明公开了一种PDF文件中表格信息的提取方法,其特征在于,包括:读取PDF文件;解析PDF文件的属性;找到并整理页面内所有横线以及竖线的集合;判断当前页面的横竖线集合能否组成完整的表格边框,若能则按照有边框表格处理,反之则按照无边框表格处理;得到表格的行列以及单元格的元信息;判断是否为跨页表格,如果是跨页表格则合并跨页表格;若不是跨页表格则直接存储表格;存储表格的行列信息,以及所在的页和页面内位置等提取得到的信息。本发明实现了PDF表格的更精确识别、更好的还原率以及更完整的表格提取过程。