一种基于变分自编码器的声码器实现方法及装置

基本信息

申请号 CN202010541602.3 申请日 -
公开(公告)号 CN111724809A 公开(公告)日 2020-09-29
申请公布号 CN111724809A 申请公布日 2020-09-29
分类号 G10L25/24(2013.01)I 分类 乐器;声学;
发明人 刘雨松 申请(专利权)人 苏州意能通信息技术有限公司
代理机构 江苏昆成律师事务所 代理人 苏州意能通信息技术有限公司
地址 215000江苏省苏州市工业园区若水路388号E0202室
法律状态 -

摘要

摘要 为了解决现有技术采用自回归方式的音频生成效率低的问题,提供一种基于变分自编码器的声码器实现方法及装置,包括训练过程和应用过程,其特征在于,训练过程包括步骤:将音频源信号输入预处理模块,得到梅尔谱图;再将梅尔谱图输入条件信息模块,得到条件信息;再将条件信息和音频源信号共同输入编码器中,得到中间隐藏信息;再将中间隐藏信息和条件信息共同输入解码器中,得到输出音频;进行损失函数计算并进行参数优化,当总损失函数值低于某个阈值,训练完成;应用过程包括步骤:将前端得到的频谱图输入条件信息模块得到条件信息,将条件信息和已知的标准高斯白噪声输入解码器,得到输出音频。