一种PDF文件表格解析方法及系统
基本信息
申请号 | CN201710193060.3 | 申请日 | - |
公开(公告)号 | CN108664458A | 公开(公告)日 | 2018-10-16 |
申请公布号 | CN108664458A | 申请公布日 | 2018-10-16 |
分类号 | G06F17/22 | 分类 | 计算;推算;计数; |
发明人 | 裴泽光;武海峰 | 申请(专利权)人 | 中科云投科技股份有限公司 |
代理机构 | 北京市盛峰律师事务所 | 代理人 | 华多九州科技股份有限公司 |
地址 | 100089 北京市海淀区万柳中路6号院4号楼1层101 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种PDF文件表格解析方法及系统,涉及数据处理领域。所述方法:获取目标PDF文件,并将所述目标PDF文件转化为word文档;将word文档转化为html文档;识别html文档中的表格信息,读取并输出所述表格信息;在识别html文档中的表格信息过程中,还需要将识别到的表格信息转化成结构化信息。所述系统包括:转换单元一、转换单元二和制作单元。本发明所述方法不仅能准确的识别和读取PDF文件中的文字信息,还能完成的读取PDF文件中的表格信息,且准确率至少为90%,本发明还能将读取的表格信息转化为结构话数据。 |
