文本识别及模型训练方法、系统、设备及可读存储介质
基本信息
申请号 | CN202010270210.8 | 申请日 | - |
公开(公告)号 | CN111507328A | 公开(公告)日 | 2020-08-07 |
申请公布号 | CN111507328A | 申请公布日 | 2020-08-07 |
分类号 | G06K9/20;G06K7/14;G06N3/04 | 分类 | - |
发明人 | 邬国锐;卿山;王庆庆 | 申请(专利权)人 | 北京爱咔咔信息技术有限公司 |
代理机构 | 北京致科知识产权代理有限公司 | 代理人 | 北京爱咔咔信息技术有限公司 |
地址 | 100085 北京市海淀区上地四街8号楼502-6 | ||
法律状态 | - |
摘要
摘要 | 本发明公开一种文本识别及模型训练方法、系统、设备及可读存储介质,本发明在文本识别的编码阶段,通过稠密卷积神经网络提取待识别图片的图像特征,使得提取出的特征更加抽象,包含的语义信息更加丰富;通过在图像特征中添加二维位置编码信息,生成包含位置信息的图像特征,加入的二维位置编码能够在对图像特征进行解码时更加准确的定位图像中字符的位置,从而能够更加准确地识别出对应的文本字符,能够提高弯曲文本识别的准确率;在解码阶段,通过包含二维注意力机制的transformer解码层,对包含位置信息的图像特征进行解码处理,能够充分地利用图像二维的空间信息,使用一种弱监督的方式进行训练,能够进一步提高弯曲文本识别的准确率。 |
