一种PDF文件的信息抽取方法及装置

基本信息

申请号 CN201710067220.X 申请日 -
公开(公告)号 CN106951400A 公开(公告)日 2017-07-14
申请公布号 CN106951400A 申请公布日 2017-07-14
分类号 G06F17/22 分类 计算;推算;计数;
发明人 兰任;马超;张道泉;赵继广 申请(专利权)人 北京顺通行网络科技有限公司
代理机构 北京同达信恒知识产权代理有限公司 代理人 北京因果树网络科技有限公司
地址 100080 北京市海淀区中关村创业大街昊海楼4层402室
法律状态 -

摘要

摘要 本发明涉及信息处理领域,尤其涉及一种PDF文件的信息抽取方法及装置,该方法为,针对PDF文件,分别将每一页中的信息生成相应的树形结构;分别统计每一页相应的树形结构中每一个节点的信息,从每一页中识别并抽取标题、正文、图表标题和图表结尾;进行汇总,对标题进行等级划分,并根据图表标题和图表结尾对图表进行抽取,分别将正文、图表映射到相应的标题和图表标题中,最终生成PDF文件的结构化数据,这样,可以对PDF文件中的标题、正文、图表等进行结构化抽取,进行精细解析和对图表信息的有效抽取,为实现行业研报垂直领域的搜索、信息精确定位及内容挖掘提供数据支持,极大的简化了用户分析研报内容的时间。