一种基于Bottleneck特征训练克隆音色及韵律的系统及方法

基本信息

申请号 CN202010314822.2 申请日 -
公开(公告)号 CN111210803B 公开(公告)日 2021-08-03
申请公布号 CN111210803B 申请公布日 2021-08-03
分类号 G10L13/02(2013.01)I;G10L15/02(2006.01)I;G10L15/06(2013.01)I;G10L15/16(2006.01)I;G10L25/03(2013.01)I;G10L25/24(2013.01)I;G10L25/30(2013.01)I;G10L25/12(2013.01)I 分类 乐器;声学;
发明人 司马华鹏;龚雪飞 申请(专利权)人 南京硅基智能科技有限公司
代理机构 江苏舜点律师事务所 代理人 杜东辉
地址 210012江苏省南京市雨花台区软件大道66号-1
法律状态 -

摘要

摘要 本发明涉及语音合成、语音识别、声音克隆技术领域,本发明结合语音合成技术、语音识别技术、迁移学习技术,提供一种基于Bottleneck特征(音频的语言特征)的声音克隆实现方案,包含训练系统和训练方法;利用少量样本提供自然度、相似度高的TTS服务,以提供目标用户特性的TTS服务,解决了语音合成技术服务样本量大、制作周期长、人力成本高的问题。训练系统包括:数据采集模块、声学特征提取模块、语音识别模块、韵律模块、多人语音声学模块、语音合成模块;本发明还提供一种基于上述系统训练方法,包括准备训练语料、声学特征提取、各模块训练和微调,以及语音合成。