一种基于中文语音OpenSmile和双向LSTM的端到端情绪识别方法

基本信息

申请号 CN202011528598.3 申请日 -
公开(公告)号 CN112634873A 公开(公告)日 2021-04-09
申请公布号 CN112634873A 申请公布日 2021-04-09
分类号 G10L15/02;G10L15/06;G10L15/183;G10L15/26;G10L25/24;G10L25/63 分类 乐器;声学;
发明人 吴强;季晓枫;施恩铭;马俊;郭翔 申请(专利权)人 上海幻维数码创意科技股份有限公司
代理机构 上海科盛知识产权代理有限公司 代理人 赵志远
地址 200072 上海市静安区广中西路777弄13号
法律状态 -

摘要

摘要 本发明涉及一种基于中文语音OpenSmile和双向LSTM的端到端情绪识别方法,包括:步骤1:获取待识别的中文语音音频,并对音频数据进行预处理;步骤2:使用OpenSmile分别提取训练集和测试集语音音频的MFCC音频特征;步骤3:使用训练集对双向LSTM网络进行训练;步骤4:使用测试集对完成训练的双向LSTM网络进行测试,计算测试准确率,判断测试准确率是否大于预设阈值,若是,则执行步骤5,否则,返回步骤3;步骤5:使用达到预设准确率阈值的双向LSTM网络对中文语音音频进行情绪识别。与现有技术相比,本发明具有识别精度高、支持多人以及长短句识别等优点。