一种PDF文件表格解析方法及系统

基本信息

申请号 CN201710193060.3 申请日 -
公开(公告)号 CN108664458A 公开(公告)日 2018-10-16
申请公布号 CN108664458A 申请公布日 2018-10-16
分类号 G06F17/22 分类 计算;推算;计数;
发明人 裴泽光;武海峰 申请(专利权)人 中科云投科技股份有限公司
代理机构 北京市盛峰律师事务所 代理人 华多九州科技股份有限公司
地址 100089 北京市海淀区万柳中路6号院4号楼1层101
法律状态 -

摘要

摘要 本发明公开了一种PDF文件表格解析方法及系统,涉及数据处理领域。所述方法:获取目标PDF文件,并将所述目标PDF文件转化为word文档;将word文档转化为html文档;识别html文档中的表格信息,读取并输出所述表格信息;在识别html文档中的表格信息过程中,还需要将识别到的表格信息转化成结构化信息。所述系统包括:转换单元一、转换单元二和制作单元。本发明所述方法不仅能准确的识别和读取PDF文件中的文字信息,还能完成的读取PDF文件中的表格信息,且准确率至少为90%,本发明还能将读取的表格信息转化为结构话数据。