具有三维骨架正则化和表示性身体姿势的个性化语音到视频

基本信息

申请号 CN202080005083.7 申请日 -
公开(公告)号 CN114144790A 公开(公告)日 2022-03-04
申请公布号 CN114144790A 申请公布日 2022-03-04
分类号 G06K9/00(2006.01)I;G06K9/62(2006.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I;G10L21/10(2013.01)I;G10L25/30(2013.01)I 分类 计算;推算;计数;
发明人 廖淼;张思博;王鹏;杨睿刚 申请(专利权)人 百度时代网络技术(北京)有限公司
代理机构 北京英赛嘉华知识产权代理有限责任公司 代理人 王达佐;王艳春
地址 100080北京市海淀区东北旺西路8号中关村软件园17号楼二层A2
法律状态 -

摘要

摘要 本文提出了是用于将给定的语音音频或文本转换为具有同步的、真实的、具有表现性的身体动力学的人逼真说话的视频的新颖的实施例。在一个或多个实施例中,使用递归神经网络从音频序列生成3D骨架运动,并且经由有条件的生成对抗网络合成输出视频。为了使运动逼真和具有表现性,可以在学习和测试管道中的生成过程中嵌入对关节式3D人体骨架和个人语音标志性姿势的学习字典的知识。前者防止产生不合理的身体变形,后者帮助模型利用较少的视频来快速学习有意义的身体运动。为了产生具有运动细节的逼真的高分辨率视频,在有条件的GAN中插入部分注意机制,其中每个具体部分被自动放大以具有它们自己的鉴别器。