PDF文档中的表格矢量解析方法及装置
基本信息
申请号 | CN201810254092.4 | 申请日 | - |
公开(公告)号 | CN108446264B | 公开(公告)日 | 2022-02-15 |
申请公布号 | CN108446264B | 申请公布日 | 2022-02-15 |
分类号 | G06F40/177(2020.01)I;G06F40/18(2020.01)I | 分类 | 计算;推算;计数; |
发明人 | 余宙;杨永智;汪贤 | 申请(专利权)人 | 阿博茨德(北京)科技有限公司 |
代理机构 | 北京市领专知识产权代理有限公司 | 代理人 | 林辉轮;张玲 |
地址 | 100083北京市海淀区学院路甲5号1幢1#厂房A座南2层A2-1-7 | ||
法律状态 | - |
摘要
摘要 | 本发明涉及一种PDF文档中的表格矢量解析方法及装置,所述方法包括步骤:接收包含表格区域的PDF文档;提取出表格区域中的水平线、垂直线和文本块,并判断表格区域中表格的类型;若表格为近全线表格,则根据表格区域内水平线和垂直线,并以表格区域内的文本块为辅助,确定出表格区域中近全线表格的结构;若表格为近无线表格,则根据表格区域内的文本块,并以表格区域内的水平线和/或垂直线为辅助,确定出表格区域中近无线表格的结构。根据本发明的方法及装置,综合表格区域内的直线和文本块,共同确定表格中的单元格,使得解析得到的单元格更加准确,为表格解析提供可靠的方法。 |
