一种PDF文件的信息抽取方法及装置
基本信息
申请号 | CN201710067220.X | 申请日 | - |
公开(公告)号 | CN106951400A | 公开(公告)日 | 2017-07-14 |
申请公布号 | CN106951400A | 申请公布日 | 2017-07-14 |
分类号 | G06F17/22 | 分类 | 计算;推算;计数; |
发明人 | 兰任;马超;张道泉;赵继广 | 申请(专利权)人 | 北京顺通行网络科技有限公司 |
代理机构 | 北京同达信恒知识产权代理有限公司 | 代理人 | 北京因果树网络科技有限公司 |
地址 | 100080 北京市海淀区中关村创业大街昊海楼4层402室 | ||
法律状态 | - |
摘要
摘要 | 本发明涉及信息处理领域,尤其涉及一种PDF文件的信息抽取方法及装置,该方法为,针对PDF文件,分别将每一页中的信息生成相应的树形结构;分别统计每一页相应的树形结构中每一个节点的信息,从每一页中识别并抽取标题、正文、图表标题和图表结尾;进行汇总,对标题进行等级划分,并根据图表标题和图表结尾对图表进行抽取,分别将正文、图表映射到相应的标题和图表标题中,最终生成PDF文件的结构化数据,这样,可以对PDF文件中的标题、正文、图表等进行结构化抽取,进行精细解析和对图表信息的有效抽取,为实现行业研报垂直领域的搜索、信息精确定位及内容挖掘提供数据支持,极大的简化了用户分析研报内容的时间。 |
