一种表格结构提取方法

基本信息

申请号 CN202010129664.3 申请日 -
公开(公告)号 CN111368695A 公开(公告)日 2020-07-03
申请公布号 CN111368695A 申请公布日 2020-07-03
分类号 G06K9/00;G06K9/34;G06K9/46;G06N3/04 分类 -
发明人 汪雨;郭彦儒;王威 申请(专利权)人 上海汇航捷讯网络科技有限公司
代理机构 北京同恒源知识产权代理有限公司 代理人 上海汇航捷讯网络科技有限公司
地址 200120 上海市浦东新区(上海)自由贸易试验区民生路1403号1112室
法律状态 -

摘要

摘要 本发明涉及一种表格结构提取方法,属于文档识别领域。该方法包括:S1:数据转换;S2:图片预处理及直线分割;S3:直线检测及预处理;S4:水平线与竖直线判断;S5:查找交点;S6:断线的续连;S7:获取单元格。本发明采用深度网络分割图像,泛化和稳定性更高,能够减小背景色、印章、线条颜色的干扰;对表格图像进行分析,能处理表格线断裂,文字表格线粘连等常见问题,正确得到表格结构;对分割图进行线条检测时,通过按比例缩小图像提高检测速度,并保证大小与坐标还原;通过交点关系产生单元格,排除了原始线条的凸凹瑕疵,使单元格更加美观。