PDF文档中表格的定位方法及装置

基本信息

申请号 CN201810253203.X 申请日 -
公开(公告)号 CN108470021A 公开(公告)日 2018-08-31
申请公布号 CN108470021A 申请公布日 2018-08-31
分类号 G06F17/24 分类 计算;推算;计数;
发明人 余宙;杨永智;汪贤 申请(专利权)人 阿博茨德(北京)科技有限公司
代理机构 北京市领专知识产权代理有限公司 代理人 林辉轮;张玲
地址 100083 北京市海淀区学院路甲5号1幢1#厂房A座南2层A2-1-7
法律状态 -

摘要

摘要 本发明涉及一种PDF文档中表格的定位方法及装置,所述方法包括步骤:接收包含表格的PDF文档;从所述PDF文档的矢量流信息中提取字符信息和直线信息;根据所提取的字符信息和直线信息,定位所述PDF文档中的表格区域。本发明方法及装置是基于页面中所有的直线和文本块进行表格区域定位,相比于现有技术可以提高表格区域定位的准确性,继而为表格信息的准确解析提供基础。