一种PDF文件表格解析方法及系统专利查询专利号|摘要-满商公司网

一种PDF文件表格解析方法及系统

基本信息

摘要

摘要	本发明公开了一种PDF文件表格解析方法及系统，涉及数据处理领域。所述方法：获取目标PDF文件，并将所述目标PDF文件转化为word文档；将word文档转化为html文档；识别html文档中的表格信息，读取并输出所述表格信息；在识别html文档中的表格信息过程中，还需要将识别到的表格信息转化成结构化信息。所述系统包括：转换单元一、转换单元二和制作单元。本发明所述方法不仅能准确的识别和读取PDF文件中的文字信息，还能完成的读取PDF文件中的表格信息，且准确率至少为90％，本发明还能将读取的表格信息转化为结构话数据。