基于跨模态哈希学习的视频解析方法

基本信息

申请号 CN202110447506.7 申请日 -
公开(公告)号 CN113111836A 公开(公告)日 2021-07-13
申请公布号 CN113111836A 申请公布日 2021-07-13
分类号 G06K9/00(2006.01)I;G06K9/62(2006.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I 分类 计算;推算;计数;
发明人 贾永坡;申培;胡宇鹏;甘甜;吴建龙;高赞;聂礼强 申请(专利权)人 河钢集团有限公司
代理机构 济南泉城专利商标事务所 代理人 支文彬
地址 250013山东省济南市历下区科院路19号
法律状态 -

摘要

摘要 一种基于跨模态哈希学习的视频解析方法,实现多模态特征向汉明共空间的特征映射与融合,并利用汉明距离对具有语义相似性的视频片段‑查询语句对,进行高效检索。一方面引入双向时序卷积网络模型,深刻理解视频单元的上下文信息,以及视频内部的长期语义依赖;另一方面,引入基于多头注意力机制的文本语义理解模型,对给定查询语句进行有效表征,从而提高了视频定位的精度。本发的特征编码模型是相互独立的,即视频片段候选集的生成与查询语句特征集的表征,可以分开独立运行。因此,当我们对给定视频完成相应的候选集生成之后,可以根据不同用户的多样性需求,对当前视频反复进行基于汉明距离度量的高效视频定位。