一种嵌套表格的提取方法及装置、存储介质
基本信息
申请号 | CN202011564518.X | 申请日 | - |
公开(公告)号 | CN112668289A | 公开(公告)日 | 2021-04-16 |
申请公布号 | CN112668289A | 申请公布日 | 2021-04-16 |
分类号 | G06F40/18;G06F16/22 | 分类 | 计算;推算;计数; |
发明人 | 王春浩;程言超;周炬;马成龙 | 申请(专利权)人 | 苏州开心盒子软件有限公司 |
代理机构 | 北京尚伦律师事务所 | 代理人 | 陈红亮 |
地址 | 215123 江苏省苏州市苏州工业园区星湖街328号创意产业园6-604 | ||
法律状态 | - |
摘要
摘要 | 本申请公开了一种嵌套表格的提取方法及装置、存储介质,所述方法包括:读取第一类型文件中的数据内容并进行解析,确定解析后的所述数据内容中包含的线段坐标信息;以展示单元为基准,对线段进行分组;基于线段的坐标将相邻或相接线段横向或纵向距离小于相应阈值、相邻线段相邻端点间隔小于对应定阈值的线段进行合并;遍历合并后的所有线段,确定线段是否相交,生成集合;遍历集合内线段,确定合并后的相交线段之间的交点,遍历所有交点,确定构成矩形框的交点;以构成的矩形框面积大于设定阈值的交点为基准,生成表格;基于生成的表格,计算表格的包含关系,基于包含关系形成嵌套表格。本申请提升了表格提取准确率,减轻了编辑工作。 |
