基于深度学习和并查集算法的OCR识别并抽取图片的方法、装置、电子设备及存储介质
基本信息
申请号 | CN202010919839.0 | 申请日 | - |
公开(公告)号 | CN112149523A | 公开(公告)日 | 2020-12-29 |
申请公布号 | CN112149523A | 申请公布日 | 2020-12-29 |
分类号 | G06K9/00(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 汪敏;严妍;肖国泉;裴非;肖克;彭祖剑;邵罗树;张博 | 申请(专利权)人 | 开普云信息科技股份有限公司 |
代理机构 | - | 代理人 | - |
地址 | 523000广东省东莞市石龙镇中山东东升路1号汇星商业中心5栋2单元1805室 | ||
法律状态 | - |
摘要
摘要 | 本发明提供基于深度学习和并查集算法的OCR识别并抽取图片的方法、装置、电子设备及存储介质,属于图片处理技术领域。所述方法应用于服务器,方法包括:采用深度学习算法对图片进行OCR处理,得到文本信息BOX;运用并查集分类算法对文本信息进行抽取,得到段落分类;筛选后得到纯文本段落;利用OpenCV对纯文本段落做白色BOX覆盖,得到TMP格式图片;做像素横纵扫描找到分割线并切分,抽取出最终图片。本技术将深度学习算法与并查集分类算法相融合,通过深度学习算法实现了OCR对图片文本的高效识别,通过并查集分类算法提高了OpenCV对图片的精准切割,大大提高了OCR识别和抽取图像的准确性和正确率。 |
