一种ARM侧离线语音合成的方法、装置及存储介质

基本信息

申请号 CN202110599311.4 申请日 -
公开(公告)号 CN113362803A 公开(公告)日 2021-09-07
申请公布号 CN113362803A 申请公布日 2021-09-07
分类号 G10L13/08(2013.01)I;G10L25/18(2013.01)I;G10L25/30(2013.01)I 分类 乐器;声学;
发明人 张毅;胡奎;姜黎 申请(专利权)人 杭州芯声智能科技有限公司
代理机构 成都知都云专利代理事务所(普通合伙) 代理人 赵正寅
地址 310000浙江省杭州市杭州经济技术开发区白杨街道科技园路20号14幢3层02室-15
法律状态 -

摘要

摘要 本发明提供的一种ARM侧离线语音合成的方法、装置及存储介质,涉及语音合成技术领域。本发明通过对ARM侧设备部署音素序列生成器、音素—时间标签序列生成器、声学特征生成器和声码器来进行离线语音合成,通过对ARM侧设备部署的各生成器进行进行Python toc/c++porting重编译和对Tensorflow平台的32位float型模型浮点参数进行量化压缩,使ARM侧设备能够快速进行离线语音合成且达到节省ARM侧设备所需部署空间、降低ARM侧设备运算要求的目的;通过通过将MelGAN模型作为神经网络声码模型,达到了提升训练速率,在没有额外的蒸馏和感知损失的引入下仍能产生高质量的语音合成模型;将Fastspeech 2模型神经网络声学特征生成模型能达到升模型训练速率和增加了数据的丰富度避免过多的信息损失的目的。