PDF文件中表格信息的提取方法
基本信息
申请号 | CN201811630768.1 | 申请日 | - |
公开(公告)号 | CN109635268A | 公开(公告)日 | 2019-04-16 |
申请公布号 | CN109635268A | 申请公布日 | 2019-04-16 |
分类号 | G06F17/24(2006.01)I; G06F17/27(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 孟泽洋; 王俊 | 申请(专利权)人 | 南京吾道知信信息技术有限公司 |
代理机构 | 北京德崇智捷知识产权代理有限公司 | 代理人 | 南京吾道知信信息技术有限公司 |
地址 | 210000 江苏省南京市江宁区东山街道东麒路33号 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种PDF文件中表格信息的提取方法,其特征在于,包括:读取PDF文件;解析PDF文件的属性;找到并整理页面内所有横线以及竖线的集合;判断当前页面的横竖线集合能否组成完整的表格边框,若能则按照有边框表格处理,反之则按照无边框表格处理;得到表格的行列以及单元格的元信息;判断是否为跨页表格,如果是跨页表格则合并跨页表格;若不是跨页表格则直接存储表格;存储表格的行列信息,以及所在的页和页面内位置等提取得到的信息。本发明实现了PDF表格的更精确识别、更好的还原率以及更完整的表格提取过程。 |
