PDF文档中表格解析的方法、系统、存储介质及电子设备
基本信息

| 申请号 | CN201910560269.8 | 申请日 | - |
| 公开(公告)号 | CN110472208A | 公开(公告)日 | 2019-11-19 |
| 申请公布号 | CN110472208A | 申请公布日 | 2019-11-19 |
| 分类号 | G06F17/24(2006.01)I | 分类 | 计算;推算;计数; |
| 发明人 | 陆惠国 | 申请(专利权)人 | 上海恒生聚源数据服务有限公司 |
| 代理机构 | 杭州华鼎知识产权代理事务所(普通合伙) | 代理人 | 上海恒生聚源数据服务有限公司 |
| 地址 | 200127 上海市浦东新区峨山路91弄61号7楼 | ||
| 法律状态 | - | ||
摘要

| 摘要 | 本发明涉及PDF文档中表格解析的方法、系统、存储介质及电子设备,S1:对PDF文档中的绘图指令进行解析,获得线段;S2:根据线段解析出表格及表格对应的位置,根据表格及表格对应的位置获取表格数据;S3:对表格数据进行校验,若表格格式错误,则进入步骤S4,若表格格式正确,则提取表格数据并进入步骤S5;S4:通过图像边缘检测算法对PDF文档进行解析,获得线段,然后进入步骤S2;S5:通过基于深度学习的物体探测算法来探测PDF文档中无表格线的表格存在的区域,并在判定成功的区域中的文本块的排列位置,添加表格线得到表格数据,提取表格数据。通过使用本发明,大大提高了采集表格数据的效率,提高了准确性。 |





