一种基于视觉语言建模网络的场景文字识别方法专利查询专利号|摘要-满商公司网

一种基于视觉语言建模网络的场景文字识别方法

基本信息

摘要

摘要	本发明公开了一种基于视觉语言建模网络的场景文字识别方法，训练过程中，通过使视觉模型直接在被遮挡的文字图像特征中识别完整的词级结果，引导视觉模型根据视觉上下文信息推理出被遮挡的文字内容，从而赋予视觉模型语言能力；因此，在不需要引入额外语言模型结构的情况下，视觉模型自适应地在视觉上下文中捕捉语言信息来增强视觉特征，从而提升识别能力。并且，整个字符级掩码的生成过程只需要原有的词级标注，不需要引入额外的标注信息；测试过程中只使用了主干网络和视觉语义推理模块进行识别，因此位置感知的掩码生成模块只在训练过程中使用，不引入额外的计算开销。