一种基于大数据的PDF文档处理方法及装置

基本信息

申请号 CN201711080720.3 申请日 -
公开(公告)号 CN107943785B 公开(公告)日 2021-07-20
申请公布号 CN107943785B 申请公布日 2021-07-20
分类号 G06F40/279 分类 计算;推算;计数;
发明人 贾义动;纪晓阳;高峰 申请(专利权)人 广东广业开元科技有限公司
代理机构 广州嘉权专利商标事务所有限公司 代理人 朱晓敏;胡辉
地址 510623 广东省广州市天河区珠江新城金穗路1号邦华环球广场408
法律状态 -

摘要

摘要 本发明公开了一种基于大数据的PDF文档处理方法及装置,该方法包括:利用去重技术和格式转换技术,构建包含多个不同文档格式财务文档的多格式文档池;利用财务指标的正则表达式规则、起始特征指标和结束特征指标,对多个不同文档格式的财务文档进行定位解析处理后,获得财务数据以及与财务数据对应的指标名称和时间;利用财务数据所对应的不同解析结果,对财务数据进行校验。该装置包括用于存储程序的存储器以及用于加载程序并执行所述基于大数据的PDF文档处理方法的处理器。通过使用本发明,能够快速、准确地对多种不同格式的财务文档进行财务数据的解析提取。本发明作为一种基于大数据的PDF文档处理方法及装置可广泛应用于大数据解析领域中。