一种基于视觉语言建模网络的场景文字识别方法

基本信息

申请号 CN202011502420.1 申请日 -
公开(公告)号 CN112541501B 公开(公告)日 2021-09-07
申请公布号 CN112541501B 申请公布日 2021-09-07
分类号 G06K9/32;G06K9/62;G06N5/04 分类 计算;推算;计数;
发明人 张勇东;王裕鑫;谢洪涛;柳轩 申请(专利权)人 人民网股份有限公司
代理机构 北京凯特来知识产权代理有限公司 代理人 郑立明;韩珂
地址 100193 北京市海淀区西北旺东路10号院5号楼
法律状态 -

摘要

摘要 本发明公开了一种基于视觉语言建模网络的场景文字识别方法,训练过程中,通过使视觉模型直接在被遮挡的文字图像特征中识别完整的词级结果,引导视觉模型根据视觉上下文信息推理出被遮挡的文字内容,从而赋予视觉模型语言能力;因此,在不需要引入额外语言模型结构的情况下,视觉模型自适应地在视觉上下文中捕捉语言信息来增强视觉特征,从而提升识别能力。并且,整个字符级掩码的生成过程只需要原有的词级标注,不需要引入额外的标注信息;测试过程中只使用了主干网络和视觉语义推理模块进行识别,因此位置感知的掩码生成模块只在训练过程中使用,不引入额外的计算开销。