基于连接时序分类和自注意力机制的端到端语音识别方法

基本信息

申请号 CN202011101902.6 申请日 -
公开(公告)号 CN112509564A 公开(公告)日 2021-03-16
申请公布号 CN112509564A 申请公布日 2021-03-16
分类号 G10L15/183(2013.01)I;G10L15/02(2006.01)I;G10L15/06(2013.01)I;G10L15/08(2006.01)I 分类 乐器;声学;
发明人 庞伟;王亮;陆生礼;狄敏;姚志强 申请(专利权)人 江苏南大电子信息技术股份有限公司
代理机构 南京瑞弘专利商标事务所(普通合伙) 代理人 彭雄
地址 210019江苏省南京市建邺区嘉陵江东街18号06栋7层
法律状态 -

摘要

摘要 本发明公开了一种基于连接时序分类和自注意力机制的端到端语音识别方法,使用连接时序分类CTC和自注意力机制SA混合机制对英文单词或汉字直接进行建模,无需前处理或后处理,输出结果直接对应正确的英文序列或汉字序列。该方法共享同一个编码器网络,编码器的输出使用CTC训练准则,同时编码器的输出也作为解码器的输入,实现编码器与解码器之间的注意力关系,解码器使用交叉熵训练准则进行训练,最后以加权的方式赋予两种训练准则分配不同的权重。本发明不仅可以加快模型的收敛速度,获得更加准确的对齐属性,还可以获取输入之间的内部联系,提升语音识别系统的准确率及鲁棒性。