语音转换方法、装置和系统及存储介质

基本信息

申请号 CN202011609527.6 申请日 -
公开(公告)号 CN112750446A 公开(公告)日 2021-05-04
申请公布号 CN112750446A 申请公布日 2021-05-04
分类号 G10L21/013;G10L25/27 分类 乐器;声学;
发明人 武剑桃;李秀林 申请(专利权)人 标贝(北京)科技有限公司
代理机构 北京睿邦知识产权代理事务所(普通合伙) 代理人 徐丁峰;戴亚南
地址 100192 北京市海淀区西小口路66号中关村东升科技园·北领地B-2号楼2层A203A(东升地区)
法律状态 -

摘要

摘要 本发明提供一种语音转换方法、装置和系统及存储介质。方法包括:获取源说话者的源语音;对源语音进行特征提取;将源识别声学特征输入语音识别模型,以获得源说话者的语音后验概率;将多个时间帧中的至少部分时间帧所对应的后验概率向量输入特征转换模型,以获得目标合成声学特征,目标合成声学特征包括与至少部分时间帧一一对应的合成声学特征向量,至少部分时间帧包括多个时间帧中的所有有效时间帧;基于有效声学特征进行语音合成,以获得目标说话者的有效语音;语音识别模型或特征转换模型还输出源音频状态信息,多个时间帧中的每个时间帧属于有效时间帧还是无效时间帧基于源音频状态信息确定。这种联合建模的方式可有效提升语音转换的实时性。