基于图文协同注意力的跨模态检索模型构建及检索方法
基本信息
申请号 | CN202111406136.9 | 申请日 | - |
公开(公告)号 | CN114201621A | 公开(公告)日 | 2022-03-18 |
申请公布号 | CN114201621A | 申请公布日 | 2022-03-18 |
分类号 | G06F16/43(2019.01)I;G06F16/583(2019.01)I;G06V10/25(2022.01)I;G06V10/774(2022.01)I;G06K9/62(2022.01)I;G06N3/04(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 单丽莉;苏宇;孙承杰;林磊;刘秉权 | 申请(专利权)人 | 人民网股份有限公司 |
代理机构 | 北京隆源天恒知识产权代理有限公司 | 代理人 | 戴棋钦 |
地址 | 100032北京市西城区新街口外大街28号B座234号 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种基于图文协同注意力的跨模态检索模型构建及检索方法,所述方法包括:获取训练图像和训练文本,分别提取图像样本和文本样本的局部特征;将图像样本所有的局部图像特征和文本样本所有的局部文本特征分别映射为特征向量,并将图像样本和文本样本的特征向量分别表示成矩阵,再得到各自的Key矩阵、Query矩阵和Value矩阵;基于该多个矩阵,计算出图像样本和文本样本的跨模态注意力特征、模态内注意力特征;将跨模态注意力特征和模态内注意力特征进行融合,得到图像样本的全局特征表示和文本样本的全局特征表示;基于所述全局特征表示,训练得到跨模态检索模型。本发明可直接对不同模态的数据进行相似度匹配,具有较高的匹配准确性。 |
