一种基于深度学习和图像处理的表格识别的还原方法
基本信息
申请号 | CN202011414603.8 | 申请日 | - |
公开(公告)号 | CN112364834A | 公开(公告)日 | 2021-02-12 |
申请公布号 | CN112364834A | 申请公布日 | 2021-02-12 |
分类号 | G06K9/00(2006.01)I;G06K9/32(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 王禛贤;吴伟峰 | 申请(专利权)人 | 上海叠念信息科技有限公司 |
代理机构 | - | 代理人 | - |
地址 | 200333上海市普陀区绥德路1弄1号102、202室 | ||
法律状态 | - |
摘要
摘要 | 本发明适用于光学字符识别技术领域,具体是一种基于深度学习和图像处理的表格识别的还原方法,包括如下步骤:利用显著目标检测提取图像中的线段;并由满足一定长度的线段计算图像的偏转角度,初步校正表格的倾斜角度;根据各线条形成的组合区域提取图像的最大凸包;以横向纵向线条交点数量、凸包面积筛选处理结果,得到符合条件的表格图像凸包进行透视变换,进一步校正表格的倾斜角度以及一定的畸变;对校正后的交点坐标按照一定规则进行合并排序,得出单元格坐标;利用文字检测算法提取文本框坐标;将该表格及其单元格内文字内容按照一定比例还原至word页面;进而提供了一种鲁棒性强、形式简单、实现方便的解决方法。 |
