具有三维骨架正则化和表示性身体姿势的个性化语音到视频专利查询专利号|摘要-满商公司网

具有三维骨架正则化和表示性身体姿势的个性化语音到视频

基本信息

摘要

摘要	本文提出了是用于将给定的语音音频或文本转换为具有同步的、真实的、具有表现性的身体动力学的人逼真说话的视频的新颖的实施例。在一个或多个实施例中，使用递归神经网络从音频序列生成3D骨架运动，并且经由有条件的生成对抗网络合成输出视频。为了使运动逼真和具有表现性，可以在学习和测试管道中的生成过程中嵌入对关节式3D人体骨架和个人语音标志性姿势的学习字典的知识。前者防止产生不合理的身体变形，后者帮助模型利用较少的视频来快速学习有意义的身体运动。为了产生具有运动细节的逼真的高分辨率视频，在有条件的GAN中插入部分注意机制，其中每个具体部分被自动放大以具有它们自己的鉴别器。