基于集成学习和卷积神经网络的环境声音识别方法
基本信息
申请号 | CN202011020706.6 | 申请日 | - |
公开(公告)号 | CN112216287A | 公开(公告)日 | 2021-01-12 |
申请公布号 | CN112216287A | 申请公布日 | 2021-01-12 |
分类号 | G10L17/26;G10L25/45;G10L25/30;G10L25/18;G10L17/04;G06N3/04 | 分类 | 乐器;声学; |
发明人 | 陈俊;谢维;王震宇;郭宏成 | 申请(专利权)人 | 江苏聆世科技有限公司 |
代理机构 | 南京鑫之航知识产权代理事务所(特殊普通合伙) | 代理人 | 汪庆朋 |
地址 | 211500 江苏省南京市江北新区星火路17号创智大厦B座632室 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了基于集成学习和卷积神经网络的环境声音识别方法,包括:S1、特征提取,对原始音频进行分帧和加窗,利用梅尔滤波器组得到声音的梅尔能量频谱,最终得到最后的梅尔能量频谱特征,作为数据集;S2、模型训练,采用k折交叉验证和使用mixup数据增强方法对于所述数据集进行模型训练,得到K个卷积神经网络模型;S3、声音测试,对待测声音样本通过卷积神经网络模型进行识别。本发明能够利用k折交叉验证训练k个模型并结合k个模型进行声音识别,大大增强了模型的泛化能力,有效缓解了过拟合的现象,此外针对数据量不大的情况,使用mixup数据增强对原始样本进行混合以进一步增强模型的泛化能力。 |
