一种语音合成方法和系统
基本信息
申请号 | CN202010768946.8 | 申请日 | - |
公开(公告)号 | CN111899716B | 公开(公告)日 | 2021-03-12 |
申请公布号 | CN111899716B | 申请公布日 | 2021-03-12 |
分类号 | G10L13/047(2013.01)I;G10L13/08(2013.01)I;G10L19/16(2013.01)I;G10L25/30(2013.01)I;G10L19/04(2013.01)I | 分类 | 乐器;声学; |
发明人 | 易中华 | 申请(专利权)人 | 北京帝派智能科技有限公司 |
代理机构 | 北京弘权知识产权代理事务所(普通合伙) | 代理人 | 郭放;许伟群 |
地址 | 100080北京市海淀区海淀大街34号8层820室 | ||
法律状态 | - |
摘要
摘要 | 本申请提供了一种语音合成方法和系统,以成对设置的文本发音单元序列和语音频谱单元序列作为训练数据,能够将文本发音单元序列进行编码,得到对应的包含多个元素的编码序列;以及将编码序列中的每个元素复制目标次数,并按照各个元素在编码序列中的先后顺序对所有元素进行排列,得到扩增编码序列;以及将扩增编码序列进行解码,得到语音频谱单元预测序列,语音频谱单元预测序列与语音频谱单元序列的损失距离作为训练语音合成系统的监督信号。因此,本申请提供的技术方案,不需要对训练数据进行文本发音单元‑音频特征帧的对齐处理,并且采用了非递归的编码和解码方式,在显著简化训练工作流程的同时,提高了语音合成的准确性和效率。 |
