基于深度学习的语音驱动3D虚拟人表情音画同步方法及系统
基本信息
申请号 | CN202010633313.6 | 申请日 | - |
公开(公告)号 | CN112001992A | 公开(公告)日 | 2020-11-27 |
申请公布号 | CN112001992A | 申请公布日 | 2020-11-27 |
分类号 | G06T13/40(2011.01)I | 分类 | 计算;推算;计数; |
发明人 | 梁宏华;彭超 | 申请(专利权)人 | 超维视界(北京)传媒科技有限公司 |
代理机构 | 北京君尚知识产权代理有限公司 | 代理人 | 邱晓锋 |
地址 | 100123北京市朝阳区望京东园四区13号楼-4至33层101内17层17B8001室 | ||
法律状态 | - |
摘要
摘要 | 本发明涉及一种基于深度学习的语音驱动3D虚拟人表情音画同步方法及系统。该方法包括:提取语音信号中的对数幅度谱,作为语音信号特征;将语音信号特征输入训练完成的参数预测模型,该参数预测模型输出表情参数值;其中的参数预测模型是利用视频数据中语音信号与图像信号的天然的标签对关系训练得到的神经网络模型;对参数预测模型输出的表情参数值进行滤波;利用滤波后的表情参数值进行3D人物模型的图像渲染,实现3D虚拟人表情音画同步。该系统包括视频解析模块、参数提取模块、语音合成模块、语音信号处理模块、参数预测模块、参数滤波模块和渲染模块。本发明通过学习大量的人脸视频数据提升了虚拟人口唇效果,使得其更加自然,更像人。 |
