联结主义时间分类和截断式注意力联合在线语音识别技术
基本信息
申请号 | CN202010106791.1 | 申请日 | - |
公开(公告)号 | CN111179918A | 公开(公告)日 | 2020-05-19 |
申请公布号 | CN111179918A | 申请公布日 | 2020-05-19 |
分类号 | G10L15/06;G10L15/26;G10L15/28;G10L25/24;G10L25/30 | 分类 | 乐器;声学; |
发明人 | 张鹏远;缪浩然;程高峰;颜永红 | 申请(专利权)人 | 中科信利(广州)技术有限公司 |
代理机构 | 北京亿腾知识产权代理事务所(普通合伙) | 代理人 | 中国科学院声学研究所;中科信利(广州)技术有限公司 |
地址 | 100190 北京市海淀区北四环西路21号 | ||
法律状态 | - |
摘要
摘要 | 本发明实施例提供了一种联结主义时间分类和截断式注意力联合在线语音识别技术。构建了基于编码器、解码器、截断式注意力和联结主义时间分类器的语音识别神经网络模型,采用交叉熵准则和联结主义时间分类准则训练该神经网络模型;将语音流输入解码器,将存留的汉字序列输入编码器,利用截断式注意力机制截取有效的语音片段;根据截取的语音片段,对每条存留的汉字序列预测多个汉字,并于之构成一个新的汉字序列,并评分;联结主义时间分类器将解码拓展的多组汉字序列和已接收的语音对齐,并评分;对两种评分取平均,对各汉字序列进行剪枝;当满足终止条件时输出识别结果。该方法很大程度提升在线语音识别的性能。 |
