一种嵌套表格的提取方法及装置、存储介质

基本信息

申请号 CN202011564518.X 申请日 -
公开(公告)号 CN112668289A 公开(公告)日 2021-04-16
申请公布号 CN112668289A 申请公布日 2021-04-16
分类号 G06F40/18;G06F16/22 分类 计算;推算;计数;
发明人 王春浩;程言超;周炬;马成龙 申请(专利权)人 苏州开心盒子软件有限公司
代理机构 北京尚伦律师事务所 代理人 陈红亮
地址 215123 江苏省苏州市苏州工业园区星湖街328号创意产业园6-604
法律状态 -

摘要

摘要 本申请公开了一种嵌套表格的提取方法及装置、存储介质,所述方法包括:读取第一类型文件中的数据内容并进行解析,确定解析后的所述数据内容中包含的线段坐标信息;以展示单元为基准,对线段进行分组;基于线段的坐标将相邻或相接线段横向或纵向距离小于相应阈值、相邻线段相邻端点间隔小于对应定阈值的线段进行合并;遍历合并后的所有线段,确定线段是否相交,生成集合;遍历集合内线段,确定合并后的相交线段之间的交点,遍历所有交点,确定构成矩形框的交点;以构成的矩形框面积大于设定阈值的交点为基准,生成表格;基于生成的表格,计算表格的包含关系,基于包含关系形成嵌套表格。本申请提升了表格提取准确率,减轻了编辑工作。