一种基于图像信息的PDF有边框表格抽取方法
基本信息
申请号 | CN201810142924.3 | 申请日 | - |
公开(公告)号 | CN110163030A | 公开(公告)日 | 2019-08-23 |
申请公布号 | CN110163030A | 申请公布日 | 2019-08-23 |
分类号 | G06K9/00;G06K9/20;G06F17/24 | 分类 | 计算;推算;计数; |
发明人 | 陈前力;王博远;吴雪军 | 申请(专利权)人 | 鼎复数据科技(北京)有限公司 |
代理机构 | 北京康思博达知识产权代理事务所(普通合伙) | 代理人 | 鼎复数据科技(北京)有限公司 |
地址 | 100020 北京市朝阳区北辰世纪中心A座1550 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种基于图像信息的PDF有边框表格抽取方法,该方法中先读取出PDF文件中记载的关于横竖线条的信息,并据此重新绘制图表,再对新绘制的图表做精细化处理,滤掉其中多余线条,滤掉其中背景色,找出构成表格的横线和竖线,再补全可能缺失的边框线,最后再读取PDF文件中记载的文本信息及文本位置信息,将之填写在新绘制的表格中,从而得到可编辑的与PDF文本中内容一致的表格。 |
