一种视频定位方法及装置、模型训练方法及设备
基本信息
申请号 | CN202111139903.4 | 申请日 | - |
公开(公告)号 | CN113590874B | 公开(公告)日 | 2022-02-11 |
申请公布号 | CN113590874B | 申请公布日 | 2022-02-11 |
分类号 | G06F16/73(2019.01)I;G06F16/732(2019.01)I;G06F16/78(2019.01)I | 分类 | 计算;推算;计数; |
发明人 | 房体品;滕隽雅;卢宪凯;杨光远 | 申请(专利权)人 | 山东力聚机器人科技股份有限公司 |
代理机构 | 北京中和立达知识产权代理有限公司 | 代理人 | 祝妍 |
地址 | 276808山东省日照市岚山区安东卫街道玉泉二路99号(岚山区科技孵化器电商创业园) | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种视频定位方法及装置、模型训练方法及设备。所述视频定位方法包括:使用多尺度的时间滑动窗口,对待定位视频进行片段划分;对每个视频片段以及查询语句的每个单词进行特征提取;动态获取视频模态与文本模态之间的注意力流;基于所述视频模态与文本模态之间的注意力流,对每个视频片段的特征和每个单词的特征进行更新;动态获取视频模态内的注意力流以及文本模态内的注意力流,对每个视频片段的特征和每个单词特征;计算所述每个视频片段与所述查询语句的相似度分数;选取相似度分数最高的视频片段作为视频定位的结果。本发明不依赖于时间标签,且可以更深入的挖掘模态间交互信息,具有更好的普适性。 |
