融合表情信息的密集视频描述方法及系统专利查询专利号|摘要-满商公司网

首页/ 东南大学/ 专利详情

融合表情信息的密集视频描述方法及系统

基本信息

摘要

摘要	本发明公开了一种融合表情信息的密集视频描述方法及系统，本发明的方法步骤如下：首先利用预训练好的I3D模型和InceptionV3模型分别提取视频的动态特征和行为类别特征；再基于视频上下文截取若干可能存在行为的视频片段，并为其各生成描述性文本；之后根据视频片段的视觉和文本信息，对候选人物的行为进行识别和跟踪；根据视觉和音频信息，预测行为主体表情类别；根据文本和表情信息，构建模型，生成融合表情信息的密集视频描述。系统采用web交互技术实现描述生成结果的可视化展示。本发明可以有效提高生成描述的准确性及丰富性，鲁棒性强。此外，结合语音合成等技术，本发明还能帮助视障人士较好的理解视频。