一种基于深度学习和图像处理的表格识别的还原方法

基本信息

申请号 CN202011414603.8 申请日 -
公开(公告)号 CN112364834A 公开(公告)日 2021-02-12
申请公布号 CN112364834A 申请公布日 2021-02-12
分类号 G06K9/00(2006.01)I;G06K9/32(2006.01)I 分类 计算;推算;计数;
发明人 王禛贤;吴伟峰 申请(专利权)人 上海叠念信息科技有限公司
代理机构 - 代理人 -
地址 200333上海市普陀区绥德路1弄1号102、202室
法律状态 -

摘要

摘要 本发明适用于光学字符识别技术领域,具体是一种基于深度学习和图像处理的表格识别的还原方法,包括如下步骤:利用显著目标检测提取图像中的线段;并由满足一定长度的线段计算图像的偏转角度,初步校正表格的倾斜角度;根据各线条形成的组合区域提取图像的最大凸包;以横向纵向线条交点数量、凸包面积筛选处理结果,得到符合条件的表格图像凸包进行透视变换,进一步校正表格的倾斜角度以及一定的畸变;对校正后的交点坐标按照一定规则进行合并排序,得出单元格坐标;利用文字检测算法提取文本框坐标;将该表格及其单元格内文字内容按照一定比例还原至word页面;进而提供了一种鲁棒性强、形式简单、实现方便的解决方法。