PDF文档中的表格矢量解析方法及装置

基本信息

申请号 CN201810254092.4 申请日 -
公开(公告)号 CN108446264B 公开(公告)日 2022-02-15
申请公布号 CN108446264B 申请公布日 2022-02-15
分类号 G06F40/177(2020.01)I;G06F40/18(2020.01)I 分类 计算;推算;计数;
发明人 余宙;杨永智;汪贤 申请(专利权)人 阿博茨德(北京)科技有限公司
代理机构 北京市领专知识产权代理有限公司 代理人 林辉轮;张玲
地址 100083北京市海淀区学院路甲5号1幢1#厂房A座南2层A2-1-7
法律状态 -

摘要

摘要 本发明涉及一种PDF文档中的表格矢量解析方法及装置,所述方法包括步骤:接收包含表格区域的PDF文档;提取出表格区域中的水平线、垂直线和文本块,并判断表格区域中表格的类型;若表格为近全线表格,则根据表格区域内水平线和垂直线,并以表格区域内的文本块为辅助,确定出表格区域中近全线表格的结构;若表格为近无线表格,则根据表格区域内的文本块,并以表格区域内的水平线和/或垂直线为辅助,确定出表格区域中近无线表格的结构。根据本发明的方法及装置,综合表格区域内的直线和文本块,共同确定表格中的单元格,使得解析得到的单元格更加准确,为表格解析提供可靠的方法。