文本识别及模型训练方法、装置、设备及存储介质

基本信息

申请号 CN202110464194.0 申请日 -
公开(公告)号 CN113221879A 公开(公告)日 2021-08-06
申请公布号 CN113221879A 申请公布日 2021-08-06
分类号 G06K9/32(2006.01)I;G06K9/62(2006.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I 分类 计算;推算;计数;
发明人 邬国锐;卿山;王庆庆 申请(专利权)人 北京爱咔咔信息技术有限公司
代理机构 北京致科知识产权代理有限公司 代理人 李洪娟;魏红雅
地址 100085北京市海淀区安宁庄路26号楼2层216
法律状态 -

摘要

摘要 本发明提供一种文本识别及模型训练方法、装置、设备及存储介质,该方法包括:获取待识别图像的包含空间位置信息的第一图像特征;采用自注意力机制对所述第一图像特征进行优化,获得第二图像特征;将所述第一图像特征和所述第二图像特征进行融合,获得第三图像特征;对所述第三图像特征进行解码处理,获得识别结果。本发明通过采用自注意力机制对包含空间位置信息的图像特征进优化,并将优化后的图像特征与优化前的图像特征融合后再进行解码,融合特征有效保留了优化前图像特征的原始视觉特征并增加了空间依赖性信息,从而具有更好的表示能力,更有助于解码阶段的对齐操作,有效降低了注意力偏移问题,从而提高识别结果的准确性。