融合表情信息的密集视频描述方法及系统

基本信息

申请号 CN202210257432.5 申请日 -
公开(公告)号 CN114694062A 公开(公告)日 2022-07-01
申请公布号 CN114694062A 申请公布日 2022-07-01
分类号 G06V20/40(2022.01)I;G06V40/20(2022.01)I;G06V10/764(2022.01)I;G06V10/80(2022.01)I 分类 计算;推算;计数;
发明人 刘波;王陶然;汪铭;胡明芮;曹玖新 申请(专利权)人 东南大学
代理机构 南京众联专利代理有限公司 代理人 -
地址 210096江苏省南京市玄武区四牌楼2号
法律状态 -

摘要

摘要 本发明公开了一种融合表情信息的密集视频描述方法及系统,本发明的方法步骤如下:首先利用预训练好的I3D模型和InceptionV3模型分别提取视频的动态特征和行为类别特征;再基于视频上下文截取若干可能存在行为的视频片段,并为其各生成描述性文本;之后根据视频片段的视觉和文本信息,对候选人物的行为进行识别和跟踪;根据视觉和音频信息,预测行为主体表情类别;根据文本和表情信息,构建模型,生成融合表情信息的密集视频描述。系统采用web交互技术实现描述生成结果的可视化展示。本发明可以有效提高生成描述的准确性及丰富性,鲁棒性强。此外,结合语音合成等技术,本发明还能帮助视障人士较好的理解视频。