融合表情信息的密集视频描述方法及系统
基本信息
申请号 | CN202210257432.5 | 申请日 | - |
公开(公告)号 | CN114694062A | 公开(公告)日 | 2022-07-01 |
申请公布号 | CN114694062A | 申请公布日 | 2022-07-01 |
分类号 | G06V20/40(2022.01)I;G06V40/20(2022.01)I;G06V10/764(2022.01)I;G06V10/80(2022.01)I | 分类 | 计算;推算;计数; |
发明人 | 刘波;王陶然;汪铭;胡明芮;曹玖新 | 申请(专利权)人 | 东南大学 |
代理机构 | 南京众联专利代理有限公司 | 代理人 | - |
地址 | 210096江苏省南京市玄武区四牌楼2号 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种融合表情信息的密集视频描述方法及系统,本发明的方法步骤如下:首先利用预训练好的I3D模型和InceptionV3模型分别提取视频的动态特征和行为类别特征;再基于视频上下文截取若干可能存在行为的视频片段,并为其各生成描述性文本;之后根据视频片段的视觉和文本信息,对候选人物的行为进行识别和跟踪;根据视觉和音频信息,预测行为主体表情类别;根据文本和表情信息,构建模型,生成融合表情信息的密集视频描述。系统采用web交互技术实现描述生成结果的可视化展示。本发明可以有效提高生成描述的准确性及丰富性,鲁棒性强。此外,结合语音合成等技术,本发明还能帮助视障人士较好的理解视频。 |
