具有三维骨架正则化和表示性身体姿势的个性化语音到视频
基本信息
申请号 | CN202080005083.7 | 申请日 | - |
公开(公告)号 | CN114144790A | 公开(公告)日 | 2022-03-04 |
申请公布号 | CN114144790A | 申请公布日 | 2022-03-04 |
分类号 | G06K9/00(2006.01)I;G06K9/62(2006.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I;G10L21/10(2013.01)I;G10L25/30(2013.01)I | 分类 | 计算;推算;计数; |
发明人 | 廖淼;张思博;王鹏;杨睿刚 | 申请(专利权)人 | 百度时代网络技术(北京)有限公司 |
代理机构 | 北京英赛嘉华知识产权代理有限责任公司 | 代理人 | 王达佐;王艳春 |
地址 | 100080北京市海淀区东北旺西路8号中关村软件园17号楼二层A2 | ||
法律状态 | - |
摘要
摘要 | 本文提出了是用于将给定的语音音频或文本转换为具有同步的、真实的、具有表现性的身体动力学的人逼真说话的视频的新颖的实施例。在一个或多个实施例中,使用递归神经网络从音频序列生成3D骨架运动,并且经由有条件的生成对抗网络合成输出视频。为了使运动逼真和具有表现性,可以在学习和测试管道中的生成过程中嵌入对关节式3D人体骨架和个人语音标志性姿势的学习字典的知识。前者防止产生不合理的身体变形,后者帮助模型利用较少的视频来快速学习有意义的身体运动。为了产生具有运动细节的逼真的高分辨率视频,在有条件的GAN中插入部分注意机制,其中每个具体部分被自动放大以具有它们自己的鉴别器。 |
