端到端架构的通用场景中文普通话语音识别方法
基本信息
申请号 | CN202010690798.2 | 申请日 | - |
公开(公告)号 | CN111681646A | 公开(公告)日 | 2020-09-18 |
申请公布号 | CN111681646A | 申请公布日 | 2020-09-18 |
分类号 | G10L15/06(2013.01)I | 分类 | 乐器;声学; |
发明人 | 沈宜;代龙翔;张家亮;贾宇 | 申请(专利权)人 | 成都三零凯天通信实业有限公司 |
代理机构 | 成都九鼎天元知识产权代理有限公司 | 代理人 | 成都三零凯天通信实业有限公司 |
地址 | 610041四川省成都市高新区云华路333号1栋5单元4至8层 | ||
法律状态 | - |
摘要
摘要 | 本发明的端到端架构的通用场景中文普通话语音识别方法是一种综合性的语音识别方法。该方法中,在前端加入了深度模型的语音增强模型针对于强噪音环境和背景音较大的场景的干扰进行过滤掉,在后端使用的是现在流行的端到端语音识别模型,其中分为语音识别声学模型和语音识别语言模型,语音识别声学模型使用的是混合CTC和注意力联合解码方式,具有更精准的解码和更清晰的语义逻辑;语音识别语言模型模型使用的是双向循环神经网络模型,该模型常适用于文本处理,处理上下文密切相关语意。由此本发明的端到端架构的通用场景中文普通话语音识别方法具有较强鲁棒性,具有抗噪音的特性;并且在语音识别完成后能够正确纠错,可以对语音内容进行完整提取。 |
