扫描文件的处理方法、装置、设备及存储介质
基本信息
申请号 | CN202011425385.8 | 申请日 | - |
公开(公告)号 | CN112800824A | 公开(公告)日 | 2021-05-14 |
申请公布号 | CN112800824A | 申请公布日 | 2021-05-14 |
分类号 | G06K9/00;G06K9/46 | 分类 | 计算;推算;计数; |
发明人 | 王雪峰;林好;谢浩 | 申请(专利权)人 | 北京方正印捷数码技术有限公司 |
代理机构 | 北京同立钧成知识产权代理有限公司 | 代理人 | 杨俊辉;刘芳 |
地址 | 100089 北京市海淀区上地五街9号1号方正大厦211 | ||
法律状态 | - |
摘要
摘要 | 本申请提供一种扫描文件的处理方法、装置、设备及存储介质,在该方法中,通过对待处理的扫描文件中的图像页面中的倾斜偏差进行矫正处理,得到矫正后的扫描文件。之后根据非对称腐蚀膨胀方式以及预设的表格判断条件,从矫正后的扫描文件中提取出表格轮廓,并根据表格轮廓,对表格的单元格进行提取,得到单元格的坐标信息。最后采用OCR引擎提取方法提取矫正后的扫描文件中的浮动文本和表格文本,并对浮动文本和表格文本进行排序。相较于现有技术,本方法能够正确识别扫描文件中的表格,对非理想因素有很好的抑制作用,降低了识别难度,提高了识别的精确度。 |
