扫描文件的处理方法、装置、设备及存储介质

基本信息

申请号 CN202011425385.8 申请日 -
公开(公告)号 CN112800824A 公开(公告)日 2021-05-14
申请公布号 CN112800824A 申请公布日 2021-05-14
分类号 G06K9/00;G06K9/46 分类 计算;推算;计数;
发明人 王雪峰;林好;谢浩 申请(专利权)人 北京方正印捷数码技术有限公司
代理机构 北京同立钧成知识产权代理有限公司 代理人 杨俊辉;刘芳
地址 100089 北京市海淀区上地五街9号1号方正大厦211
法律状态 -

摘要

摘要 本申请提供一种扫描文件的处理方法、装置、设备及存储介质,在该方法中,通过对待处理的扫描文件中的图像页面中的倾斜偏差进行矫正处理,得到矫正后的扫描文件。之后根据非对称腐蚀膨胀方式以及预设的表格判断条件,从矫正后的扫描文件中提取出表格轮廓,并根据表格轮廓,对表格的单元格进行提取,得到单元格的坐标信息。最后采用OCR引擎提取方法提取矫正后的扫描文件中的浮动文本和表格文本,并对浮动文本和表格文本进行排序。相较于现有技术,本方法能够正确识别扫描文件中的表格,对非理想因素有很好的抑制作用,降低了识别难度,提高了识别的精确度。