一种语音合成模型、模型的训练方法以及语音合成方法
基本信息
申请号 | CN202111165153.8 | 申请日 | - |
公开(公告)号 | CN113920977A | 公开(公告)日 | 2022-01-11 |
申请公布号 | CN113920977A | 申请公布日 | 2022-01-11 |
分类号 | G10L13/02(2013.01)I;G10L13/033(2013.01)I;G10L13/08(2013.01)I;G10L25/24(2013.01)I;G10L25/30(2013.01)I;G10L25/03(2013.01)I | 分类 | 乐器;声学; |
发明人 | 司马华鹏;毛志强;田晓晖 | 申请(专利权)人 | 宿迁硅基智能科技有限公司 |
代理机构 | 北京弘权知识产权代理有限公司 | 代理人 | 逯长明;许伟群 |
地址 | 223808江苏省宿迁市湖滨新区保险小镇B19栋201室 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种语音合成模型、模型的训练方法以及语音合成方法,语音合成模型包括:嵌入模块、时长预测模块、能量预测模块、音高预测模块、情感强度预测模块、编码器、特征组合模块以及解码器。对该模型进行训练包括:获取多条情感音频以及与每条情感音频对应的文本;分析情感音频,提取情感音频对应的音素;获取情感音频的真实特征;将真实特征、情感音频对应的音素以及文本输入至初始化语音合成模型完成训练。通过训练完成的语音模型完成语音合成,包括:获取目标情感音频对应的音素以及目标文本;将目标情感音频对应的音素以及目标文本输入至语音合成模型中,得到目标声学特征;将目标声学特征还原成目标文本对应的音频。 |
