语音合成数据的质检方法以及装置

基本信息

申请号 CN202110562516.5 申请日 -
公开(公告)号 CN113035236B 公开(公告)日 2021-08-27
申请公布号 CN113035236B 申请公布日 2021-08-27
分类号 G10L25/51;G10L15/26;G10L15/16;G10L13/02 分类 乐器;声学;
发明人 张晴晴;朱冬;张雪璐;贾艳明 申请(专利权)人 北京爱数智慧科技有限公司
代理机构 北京智沃律师事务所 代理人 吴志宏
地址 100088 北京市海淀区北三环中路44号4号楼4层411
法律状态 -

摘要

摘要 本申请公开了一种语音合成数据的质检方法以及装置,属于语音合成领域,质检方法包括:根据原始文本,使用不同的语音合成方式合成多条目标音频;通过ASR模型对多条目标音频进行识别,得到各自的识别文本;在识别文本与原始文本不一致的情况下,判断识别文本对应的目标音频不合格;在识别文本与原始文本一致的情况下,判断识别文本对应的目标音频初步合格;通过端到端的判别模型输出每个初步合格的目标音频的对齐后的音素的概率值;根据音素的概率值进行音素的发音打分;通过回归模型将音素的得分转化为相应的句子的得分;在句子的得分高于阈值的情况下,判断句子对应的目标音频合格,并将得分最高的句子对应的目标音频判断为最佳音频。