基于噪声屏蔽核的说话人识别方法
基本信息
申请号 | CN201310681894.0 | 申请日 | - |
公开(公告)号 | CN103714818B | 公开(公告)日 | 2016-06-22 |
申请公布号 | CN103714818B | 申请公布日 | 2016-06-22 |
分类号 | G10L17/20(2013.01)I | 分类 | 乐器;声学; |
发明人 | 张卫强;刘加 | 申请(专利权)人 | 北京华控创为信息技术有限公司 |
代理机构 | 北京众合诚成知识产权代理有限公司 | 代理人 | 黄家俊 |
地址 | 100084 北京市海淀区北京市100084-82信箱 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了语音信号处理领域的一种基于噪声屏蔽核的说话人识别方法。该方法包括:步骤1:输入音频数据,对音频数据逐帧提取短时特征;步骤2:采用语音数据的短时特征训练一个含M个高斯混元的GMM模型,记为语音GMM;步骤3:采用噪声数据的短时特征训练一个含N个高斯混元的GMM模型,记为噪声GMM;步骤4:将语音GMM和噪声GMM拼接成一个混合GMM;步骤5:用混合GMM生成噪声屏蔽超矢量;步骤6:采用生成的噪声屏蔽超矢量进行SVM的训练和测试,完成说话人的训练和识别。该方法可以对音频中含有的噪声进行自动屏蔽,且实现简单,可以有效提高噪声条件下说话人识别的性能。 |
