用于识别PDF表格的方法、设备和介质

基本信息

申请号 CN202210007815.7 申请日 -
公开(公告)号 CN114022888A 公开(公告)日 2022-02-08
申请公布号 CN114022888A 申请公布日 2022-02-08
分类号 G06V30/412(2022.01)I;G06V30/414(2022.01)I 分类 计算;推算;计数;
发明人 朱峰;尹扬;郭鹏华 申请(专利权)人 上海朝阳永续信息技术股份有限公司
代理机构 北京市金杜律师事务所 代理人 王茂华
地址 201203 上海市浦东新区中国(上海)自由贸易试验区碧波路690号4号楼501室
法律状态 -

摘要

摘要 本公开的实施例涉及用于识别PDF表格的方法、设备和介质。在该方法中,可以针对PDF文件检索目标关键字,以便确定PDF文件中的目标表格区域;获取处于目标表格区域内的多个文本块;基于所述多个文本块的坐标,确定关于目标表格的扫描区域的左上起点和右下终点,以便提取扫描区域内的所有文本块;基于所提取的扫描区域内的所有文本块的坐标,确定对角坐标集合,所述对角坐标集合包括所有文本块中的每一个文本块的对角坐标;扫描对角坐标集合,以便生成扫描结果数组;以及遍历扫描结果数组,以便确定目标表格中的单元格文本信息。由此,本公开能够实现复杂PDF表格的精确识别,并且还可以实现表格提取、分析等处理。