一种PDF等版式文档中识别表格的方法

基本信息

申请号 CN202110598830.9 申请日 -
公开(公告)号 CN113343815A 公开(公告)日 2021-09-03
申请公布号 CN113343815A 申请公布日 2021-09-03
分类号 G06K9/00(2006.01)I;G06F40/177(2020.01)I;G06F40/174(2020.01)I 分类 计算;推算;计数;
发明人 安永进;鲁林 申请(专利权)人 北森云计算有限公司
代理机构 成都九鼎天元知识产权代理有限公司 代理人 徐静
地址 610041四川省成都市高新区萃华路89号1栋1单元4001号
法律状态 -

摘要

摘要 本发明公开了一种PDF等版式文档中识别表格的方法,包括以下步骤:在PDF页面渲染过程中,记录页面状态,忽略隐藏线条,记录有效的横向线段和纵向线段;合并近似共线且相交或近似相交的横向线段和纵向线段;找到所有横向线段和纵向线段的交点和两侧端点;划分出多个互不联通的点线区域,将交点不超过4个的点线区域作为无效区域,多个相邻的无效区域作为无连通区域组并确定其单元格;针对交点超过4个的点线区域,得到每个单元格的坐标及边线;将每个单元格组划分为若干个表格行;得到表格整体的行数和列数;根据坐标设置单元格内的内容。本发明识别单元格更准确,不会因文本坐标出现漏识别或错识别,能准确提取单元格的行列特征。