基于深度学习和并查集算法识别并抽取图片的方法及装置

基本信息

申请号 CN202010919839.0 申请日 -
公开(公告)号 CN112149523B 公开(公告)日 2021-05-28
申请公布号 CN112149523B 申请公布日 2021-05-28
分类号 G06K9/00(2006.01)I;G06N3/04(2006.01)I;G06K9/34(2006.01)I;G06N3/08(2006.01)I;G06K9/62(2006.01)I 分类 -
发明人 汪敏;严妍;肖国泉;裴非;肖克;彭祖剑;邵罗树;刘茼;郭宇峰;杜寅辰;张博 申请(专利权)人 开普云信息科技股份有限公司
代理机构 - 代理人 -
地址 523000广东省东莞市石龙镇中山东东升路1号汇星商业中心5栋2单元1805室
法律状态 -

摘要

摘要 本发明提供基于深度学习和并查集算法的OCR识别并抽取图片的方法、装置、电子设备及存储介质,属于图片处理技术领域。所述方法应用于服务器,方法包括:采用深度学习算法对图片进行OCR处理,得到文本信息BOX;运用并查集分类算法对文本信息进行抽取,得到段落分类;筛选后得到纯文本段落;利用OpenCV对纯文本段落做白色BOX覆盖,得到TMP格式图片;做像素横纵扫描找到分割线并切分,抽取出最终图片。本技术将深度学习算法与并查集分类算法相融合,通过深度学习算法实现了OCR对图片文本的高效识别,通过并查集分类算法提高了OpenCV对图片的精准切割,大大提高了OCR识别和抽取图像的准确性和正确率。