一种PDF文件的信息抽取方法及装置专利查询专利号|摘要-满商公司网

一种PDF文件的信息抽取方法及装置

基本信息

摘要

摘要	本发明涉及信息处理领域，尤其涉及一种PDF文件的信息抽取方法及装置，该方法为，针对PDF文件，分别将每一页中的信息生成相应的树形结构；分别统计每一页相应的树形结构中每一个节点的信息，从每一页中识别并抽取标题、正文、图表标题和图表结尾；进行汇总，对标题进行等级划分，并根据图表标题和图表结尾对图表进行抽取，分别将正文、图表映射到相应的标题和图表标题中，最终生成PDF文件的结构化数据，这样，可以对PDF文件中的标题、正文、图表等进行结构化抽取，进行精细解析和对图表信息的有效抽取，为实现行业研报垂直领域的搜索、信息精确定位及内容挖掘提供数据支持，极大的简化了用户分析研报内容的时间。