基于双向上下文的非自回归语音识别网络、方法及设备
基本信息
申请号 | CN202111066812.2 | 申请日 | - |
公开(公告)号 | CN113516973A | 公开(公告)日 | 2021-10-19 |
申请公布号 | CN113516973A | 申请公布日 | 2021-10-19 |
分类号 | G10L15/08(2006.01)I;G10L15/06(2013.01)I;G10L15/183(2013.01)I | 分类 | 乐器;声学; |
发明人 | 不公告发明人 | 申请(专利权)人 | 珠海亿智电子科技有限公司 |
代理机构 | 深圳青年人专利商标代理有限公司 | 代理人 | 吴桂华 |
地址 | 519000广东省珠海市高新区唐家湾镇港乐路8号大洲科技园B区厂房803室 | ||
法律状态 | - |
摘要
摘要 | 本发明适用于人类语言处理技术领域,提供了一种基于双向上下文的非自回归语音识别网络、方法、设备及存储介质,本发明提供的语音识别网络采用Transformer的编码器‑解码器结构,语音识别网络的编码器用于对输入的语音特征进行初步识别,得到初步识别结果,语音识别网络的解码器用于利用由初步识别结果提供的双向语言信息对初步识别结果进行调整,并输出最终的语音识别结果,其中,解码器通过预设的、应用于解码器的每个多头自注意力层的注意力掩码利用双向语言信息,从而充分了利用了语言信息,提高了语音识别效果,且相较于使用两个单向解码器分别利用单向语言信息的方法,结构更加高效统一。 |
