一种基于时延神经网络的快速语种识别方法
基本信息
申请号 | CN202010245658.4 | 申请日 | - |
公开(公告)号 | CN111653267A | 公开(公告)日 | 2020-09-11 |
申请公布号 | CN111653267A | 申请公布日 | 2020-09-11 |
分类号 | G10L15/00;G10L15/04;G10L15/06;G10L15/10;G10L15/16 | 分类 | 乐器;声学; |
发明人 | 刘俊南;江海;王化;刘文龙 | 申请(专利权)人 | 因诺微科技(天津)有限公司 |
代理机构 | 天津市北洋有限责任专利代理事务所 | 代理人 | 李素兰 |
地址 | 300392 天津市滨海新区华苑产业区(环外)海泰发展五道16号B-6号楼-1-502 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种基于时延神经网络的快速语种识别方法,步骤1,输入语音信号,对输入的语音信号进行处理,得到固定长度的语音信号帧序列;步骤2、按帧提取语音信号帧序列的底层声学特征;步骤3,将底层声学特征输入Residual TDNN残差块结构中进行计算处理,得到M×64抽象特征;步骤4,进行Attention计算,步骤5,对Attention特征在时间帧维度上应用全局平均池化处理,得到Embedding向量;步骤6,对Embedding向量进行两层DNN提取,得到语种向量;步骤7,将语种向量输入ArcFaceStatic损失函数,将底层声学特征输入到训练好的神经网络,得到所有可识别语种的概率。本发明本发明在短语音上具有较强鲁棒性,因此能够快速准确地识别语种。 |
