基于深度学习的OCR图像文字识别与段落输出方法专利查询专利号|摘要-满商公司网

基于深度学习的OCR图像文字识别与段落输出方法

基本信息

申请号	CN202110884424.9	申请日	-
公开（公告）号	CN113435449A	公开（公告）日	2021-09-24
申请公布号	CN113435449A	申请公布日	2021-09-24
分类号	G06K9/32（2006.01）I;G06K9/46（2006.01）I;G06N3/04（2006.01）I;G06N3/08（2006.01）I	分类	计算；推算；计数;
发明人	卢红波	申请（专利权）人	全知科技（杭州）有限责任公司
代理机构	杭州奇炬知识产权代理事务所（特殊普通合伙）	代理人	贺心韬
地址	310000浙江省杭州市余杭区仓前街道仓兴路1号2幢204B室
法律状态	-

摘要

本发明公开了基于深度学习的OCR图像文字识别与段落输出方法，具体涉及OCR文字识别领域，具体操作步骤如下：S1、读入图像：将待识别的图像上传/导入，得到可编辑图像；S2、图像预处理：将步骤S1中得到的可编辑图像进行编辑，调整该图像到指定大小；S3、加载CTPN预训练模型：加载CTPN模型，先通过VGG16提取图像中的局部图像特征，再使用BLSTM提取上下文特征，然后用全连接层和多预测分支得到坐标值和概率值，最后合并字符为文本检测框。本发明在深度学习检测模型CTPN的基础上，对复杂图像进行分栏分段识别；在复杂的多栏场景下对图像中的文字进行识别并段落输出，根本上解决已有OCR识别中的结果杂糅问题，大大提升结果的可读性。