一种基于时序卷积的语音驱动口型的方法和系统

基本信息

申请号 CN202210116972.1 申请日 -
公开(公告)号 CN114495908A 公开(公告)日 2022-05-13
申请公布号 CN114495908A 申请公布日 2022-05-13
分类号 G10L15/02(2006.01)I;G10L15/16(2006.01)I;G10L25/18(2013.01)I;G10L25/30(2013.01)I;G10L25/45(2013.01)I 分类 乐器;声学;
发明人 王松坡 申请(专利权)人 北京中科深智科技有限公司
代理机构 - 代理人 -
地址 100000北京市大兴区北京经济技术开发区永昌中路4号院4号楼3层311A室
法律状态 -

摘要

摘要 本发明公开了一种基于时序卷积的语音驱动口型的方法和系统,包括:采用blendshape来表示嘴部的动作,通过神经网络输出多个blendshape的权重,通过组合这些blendshape的值,得到嘴部动作的合理表示;嘴部动作的合理表示需要进行离散化,离散化的声音信号为时域信号,将时域信号经过傅里叶变换转换到频域中,完成特征转换。本发明引入了时序卷积,将时序卷积网络用于处理语音频谱特征,较好的解决了时序信息依赖和生成模式单一的问题。