一种基于空洞卷积神经网络的端到端语种识别分类方法
基本信息
申请号 | CN202010247070.2 | 申请日 | - |
公开(公告)号 | CN113539238A | 公开(公告)日 | 2021-10-22 |
申请公布号 | CN113539238A | 申请公布日 | 2021-10-22 |
分类号 | G10L15/00;G10L15/06;G10L15/16;G10L25/03;G10L25/24;G10L25/30 | 分类 | 乐器;声学; |
发明人 | 张鹏远;苗晓晓;王文超;颜永红 | 申请(专利权)人 | 北京中科信利技术有限公司 |
代理机构 | 北京亿腾知识产权代理事务所(普通合伙) | 代理人 | 陈霁 |
地址 | 100190 北京市海淀区北四环西路21号 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种基于空洞卷积神经网络的端到端语种识别分类方法,包括:待训练语种识别网络接收,并对训练语音中提取的帧级别声学底层特征进行至少一层空洞卷积后,输出训练语音后验概率;将训练语音后验概率与真实类别标签的最小均方误差作为待训练语种识别网络的损失函数,通过减小优化函数的值进行梯度回传并更新待训练语种识别网络的参数,得到训练后语种识别网络;提取测试语音的帧级别声学底层特征;训练后语种识别网络接收测试语音的帧级别声学底层特征,输出测试语音后验概率;根据测试语音后验概率判定测试语音中的至少一个语种类别。在输出特征图的分辨率不变的情况下,不降低单个神经元的感受野,弱化语音中的时间信息丢失问题。 |
