表格处理方法、装置、设备及计算机可读存储介质
基本信息
申请号 | CN202110546088.7 | 申请日 | - |
公开(公告)号 | CN113158987A | 公开(公告)日 | 2021-07-23 |
申请公布号 | CN113158987A | 申请公布日 | 2021-07-23 |
分类号 | G06K9/00;G06F40/177 | 分类 | 计算;推算;计数; |
发明人 | 兰天;董诚;何彦青;徐红姣;许德山;潘优;刘志辉;吴振峰 | 申请(专利权)人 | 中国科学技术信息研究所 |
代理机构 | 北京市立方律师事务所 | 代理人 | 张筱宁 |
地址 | 100038 北京市海淀区复兴路15号 | ||
法律状态 | - |
摘要
摘要 | 本申请实施例提供了一种表格处理方法、装置、设备及存储介质,包括:获取可携带文档格式PDF文件中至少一个表格的线条集合和文本集合;根据线条集合,确定至少一个表格的行距单元格集合和实线行距单元格集合;根据行距单元格集合和实线行距单元格集合,确定合并单元格集合;将实线行距单元格集合中各实线行距单元格的坐标,以及合并单元格集合中各合并单元格的坐标,分别与文本集合中各文本的坐标相匹配,确定各实线行距单元格对应的文本和各合并单元格对应的文本。该方法提升了识别各实线行距单元格对应的文本和各合并单元格对应的文本的准确度。 |
