一种提高语音命令词识别性能的神经网络训练方法
基本信息
申请号 | CN202011042026.4 | 申请日 | - |
公开(公告)号 | CN112233655A | 公开(公告)日 | 2021-01-15 |
申请公布号 | CN112233655A | 申请公布日 | 2021-01-15 |
分类号 | G10L15/02(2006.01)I | 分类 | 乐器;声学; |
发明人 | 宋昱;蔡洪斌;黄乐凯;叶剑豪;何昕 | 申请(专利权)人 | 上海声瀚信息科技有限公司 |
代理机构 | 北京化育知识产权代理有限公司 | 代理人 | 上海声瀚信息科技有限公司 |
地址 | 200120上海市浦东新区中国(上海)自由贸易试验区纳贤路800号1幢A座608室 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种提高语音命令词识别性能的神经网络训练方法,本训练方法的目标神经网络采用的输入为从原始音频中提取的N维特征值,输出为M维音素标签,训练采用CTC Loss作为最终优化目标;本发明提供的一种提高语音命令词识别性能的神经网络训练方法,训练过程中,定期根据中间神经网络模型在验证集上测试结果,动态调整不同命令词对权重的贡献,从而使命令词识别结果的相对均衡;通过在命令词识别标签中加入字边界标签,进一步提高命令词的识别率,降低误触的发生。 |
