一种采用感知听觉场景分析的缺失数据特征说话人识别方法

基本信息

申请号 CN201610114968.6 申请日 -
公开(公告)号 CN106448680B 公开(公告)日 2019-11-12
申请公布号 CN106448680B 申请公布日 2019-11-12
分类号 G10L17/02(2013.01)I; G10L17/20(2013.01)I 分类 乐器;声学;
发明人 吴迪; 陶智; 赵鹤鸣; 张晓俊; 肖仲喆; 冯哲 申请(专利权)人 常熟苏大低碳应用技术研究院有限公司
代理机构 南京知识律师事务所 代理人 汪旭东
地址 215500 江苏省苏州市常熟市东南经济开发区东南大道68号1幢
法律状态 -

摘要

摘要 本发明针对现有的缺失数据特征方法在低信噪比环境下鲁棒性较差的问题,提出了一种感知听觉场景分析(Perception Auditory Scene Analysis,PASA)的MDF提取方法,进一步提高MDF方法的鲁棒性。PASA方法解决了两个关键问题。一,由oracle掩码估计出的可靠语音并不完全正确,特别在低信噪比的情况下,噪声的随机特性导致很多噪声特征谱被估计成语音特征谱。二,在低信噪比的情况下,缺失数据特征的方法在提取特征时,有一些语音的场景,被估计出的可靠部分很少,不可靠部分很多。这种语音帧的不可靠部分全部由补偿的值代替,由此估计出的特征谱的鲁棒性较差。本发明解决了这两个问题。