基于深度学习的语音驱动3D虚拟人表情音画同步方法及系统专利查询专利号|摘要-满商公司网

基于深度学习的语音驱动3D虚拟人表情音画同步方法及系统

基本信息

摘要

摘要	本发明涉及一种基于深度学习的语音驱动3D虚拟人表情音画同步方法及系统。该方法包括：提取语音信号中的对数幅度谱，作为语音信号特征；将语音信号特征输入训练完成的参数预测模型，该参数预测模型输出表情参数值；其中的参数预测模型是利用视频数据中语音信号与图像信号的天然的标签对关系训练得到的神经网络模型；对参数预测模型输出的表情参数值进行滤波；利用滤波后的表情参数值进行3D人物模型的图像渲染，实现3D虚拟人表情音画同步。该系统包括视频解析模块、参数提取模块、语音合成模块、语音信号处理模块、参数预测模块、参数滤波模块和渲染模块。本发明通过学习大量的人脸视频数据提升了虚拟人口唇效果，使得其更加自然，更像人。