一种基于时延神经网络的快速语种识别方法

基本信息

申请号 CN202010245658.4 申请日 -
公开(公告)号 CN111653267A 公开(公告)日 2020-09-11
申请公布号 CN111653267A 申请公布日 2020-09-11
分类号 G10L15/00;G10L15/04;G10L15/06;G10L15/10;G10L15/16 分类 乐器;声学;
发明人 刘俊南;江海;王化;刘文龙 申请(专利权)人 因诺微科技(天津)有限公司
代理机构 天津市北洋有限责任专利代理事务所 代理人 李素兰
地址 300392 天津市滨海新区华苑产业区(环外)海泰发展五道16号B-6号楼-1-502
法律状态 -

摘要

摘要 本发明公开了一种基于时延神经网络的快速语种识别方法,步骤1,输入语音信号,对输入的语音信号进行处理,得到固定长度的语音信号帧序列;步骤2、按帧提取语音信号帧序列的底层声学特征;步骤3,将底层声学特征输入Residual TDNN残差块结构中进行计算处理,得到M×64抽象特征;步骤4,进行Attention计算,步骤5,对Attention特征在时间帧维度上应用全局平均池化处理,得到Embedding向量;步骤6,对Embedding向量进行两层DNN提取,得到语种向量;步骤7,将语种向量输入ArcFaceStatic损失函数,将底层声学特征输入到训练好的神经网络,得到所有可识别语种的概率。本发明本发明在短语音上具有较强鲁棒性,因此能够快速准确地识别语种。