一种基于语音的情绪识别方法

基本信息

申请号 CN201910478640.6 申请日 -
公开(公告)号 CN110223714B 公开(公告)日 2021-08-03
申请公布号 CN110223714B 申请公布日 2021-08-03
分类号 G10L25/63(2013.01)I;G10L25/30(2013.01)I;G10L25/03(2013.01)I 分类 乐器;声学;
发明人 伍林;尹朝阳 申请(专利权)人 杭州哲信信息技术有限公司
代理机构 北京君泊知识产权代理有限公司 代理人 王程远
地址 310020浙江省杭州市江干区新塘路58号广新商务大厦626室
法律状态 -

摘要

摘要 本发明公开了一种基于语音的情绪识别方法,包括对语音进行分帧处理,提取每一帧的特征向量;将每一帧的特征向量输入到深度学习时序模型中,输出帧级特征;将帧级特征与深度学习时序模型的前一时刻的隐含状态输入到注意力模型,经过学习输出段级特征;将段级特征输入到注意力模型形成最终发音级别的表征;最后输入到softmax层,得到预测情绪的概率值,从而识别情绪。本发明的有益效果为:通过使用分层式深度学习时序模型结构来提取语音中不同层次的特征,同时引入多个注意力机制来有效得选择关键特征,更有利于情绪的识别,且使用该方法不仅能提取帧级语音特征,还能提取段级语音特征,从而可有效提高情绪识别的准确性。