用于识别PDF表格的方法、设备和介质
基本信息
申请号 | CN202210007815.7 | 申请日 | - |
公开(公告)号 | CN114022888B | 公开(公告)日 | 2022-04-08 |
申请公布号 | CN114022888B | 申请公布日 | 2022-04-08 |
分类号 | G06V30/412(2022.01)I;G06V30/414(2022.01)I | 分类 | 计算;推算;计数; |
发明人 | 朱峰;尹扬;郭鹏华 | 申请(专利权)人 | 上海朝阳永续信息技术股份有限公司 |
代理机构 | 北京市金杜律师事务所 | 代理人 | 王茂华 |
地址 | 201203 上海市浦东新区中国(上海)自由贸易试验区碧波路690号4号楼501室 | ||
法律状态 | - |
摘要
摘要 | 本公开的实施例涉及用于识别PDF表格的方法、设备和介质。在该方法中,可以针对PDF文件检索目标关键字,以便确定PDF文件中的目标表格区域;获取处于目标表格区域内的多个文本块;基于所述多个文本块的坐标,确定关于目标表格的扫描区域的左上起点和右下终点,以便提取扫描区域内的所有文本块;基于所提取的扫描区域内的所有文本块的坐标,确定对角坐标集合,所述对角坐标集合包括所有文本块中的每一个文本块的对角坐标;扫描对角坐标集合,以便生成扫描结果数组;以及遍历扫描结果数组,以便确定目标表格中的单元格文本信息。由此,本公开能够实现复杂PDF表格的精确识别,并且还可以实现表格提取、分析等处理。 |
