PDF文档中表格解析的方法、系统、存储介质及电子设备

基本信息

申请号 CN201910560269.8 申请日 -
公开(公告)号 CN110472208A 公开(公告)日 2019-11-19
申请公布号 CN110472208A 申请公布日 2019-11-19
分类号 G06F17/24(2006.01)I 分类 计算;推算;计数;
发明人 陆惠国 申请(专利权)人 上海恒生聚源数据服务有限公司
代理机构 杭州华鼎知识产权代理事务所(普通合伙) 代理人 上海恒生聚源数据服务有限公司
地址 200127 上海市浦东新区峨山路91弄61号7楼
法律状态 -

摘要

摘要 本发明涉及PDF文档中表格解析的方法、系统、存储介质及电子设备,S1:对PDF文档中的绘图指令进行解析,获得线段;S2:根据线段解析出表格及表格对应的位置,根据表格及表格对应的位置获取表格数据;S3:对表格数据进行校验,若表格格式错误,则进入步骤S4,若表格格式正确,则提取表格数据并进入步骤S5;S4:通过图像边缘检测算法对PDF文档进行解析,获得线段,然后进入步骤S2;S5:通过基于深度学习的物体探测算法来探测PDF文档中无表格线的表格存在的区域,并在判定成功的区域中的文本块的排列位置,添加表格线得到表格数据,提取表格数据。通过使用本发明,大大提高了采集表格数据的效率,提高了准确性。