一种PDF等版式文档中识别表格的方法
基本信息
申请号 | CN202110598830.9 | 申请日 | - |
公开(公告)号 | CN113343815A | 公开(公告)日 | 2021-09-03 |
申请公布号 | CN113343815A | 申请公布日 | 2021-09-03 |
分类号 | G06K9/00(2006.01)I;G06F40/177(2020.01)I;G06F40/174(2020.01)I | 分类 | 计算;推算;计数; |
发明人 | 安永进;鲁林 | 申请(专利权)人 | 北森云计算有限公司 |
代理机构 | 成都九鼎天元知识产权代理有限公司 | 代理人 | 徐静 |
地址 | 610041四川省成都市高新区萃华路89号1栋1单元4001号 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种PDF等版式文档中识别表格的方法,包括以下步骤:在PDF页面渲染过程中,记录页面状态,忽略隐藏线条,记录有效的横向线段和纵向线段;合并近似共线且相交或近似相交的横向线段和纵向线段;找到所有横向线段和纵向线段的交点和两侧端点;划分出多个互不联通的点线区域,将交点不超过4个的点线区域作为无效区域,多个相邻的无效区域作为无连通区域组并确定其单元格;针对交点超过4个的点线区域,得到每个单元格的坐标及边线;将每个单元格组划分为若干个表格行;得到表格整体的行数和列数;根据坐标设置单元格内的内容。本发明识别单元格更准确,不会因文本坐标出现漏识别或错识别,能准确提取单元格的行列特征。 |
