用于挖掘PDF文件的方法、设备和介质

基本信息

申请号 CN202210089715.3 申请日 -
公开(公告)号 CN114116616B 公开(公告)日 2022-05-17
申请公布号 CN114116616B 申请公布日 2022-05-17
分类号 G06F16/14(2019.01)I;G06F16/16(2019.01)I;G06F40/186(2020.01)I;G06F40/194(2020.01)I 分类 计算;推算;计数;
发明人 郭鹏华;尹扬 申请(专利权)人 上海朝阳永续信息技术股份有限公司
代理机构 北京市金杜律师事务所 代理人 -
地址 201203 上海市浦东新区中国(上海)自由贸易试验区碧波路690号4号楼501室
法律状态 -

摘要

摘要 本公开的实施例涉及用于挖掘PDF文件的方法、设备和介质。在该方法中,可以解析所述PDF文件的文本块,以便获取所述PDF文件的文本块的坐标信息;基于所解析的所述PDF文件的文本块,利用机构确定算法确定与所述PDF文件相关联的目标关联机构;利用匹配算法将所述目标关联机构的一个或多个报告模板与所述文本块的坐标信息进行匹配,从而确定一个或多个报告模板与所述PDF文件的匹配度数据;基于所获取的匹配度数据,确定与所述PDF文件对应的目标关联机构的报告模板;基于所确定的报告模板,挖掘所述PDF文件中与所确定的报告模板对应的数据。由此,本公开能够实现准确挖掘PDF文件的数据并将所挖掘数据与其实际含义相关联。