基于多模态特征提取与融合的语音情感识别方法
基本信息
申请号 | CN202110100299.8 | 申请日 | - |
公开(公告)号 | CN112765323A | 公开(公告)日 | 2021-08-17 |
申请公布号 | CN112765323A | 申请公布日 | 2021-08-17 |
分类号 | G06F16/33;G06F16/683;G06F40/151;G06F40/279;G06N3/04;G06N3/08 | 分类 | 计算;推算;计数; |
发明人 | 任传伦;郭世泽;巢文涵;张先国;夏建民;姜鑫;孙玺晨;俞赛赛;刘晓影;乌吉斯古愣 | 申请(专利权)人 | 北京间微科技有限责任公司 |
代理机构 | 北京丰浩知识产权代理事务所(普通合伙) | 代理人 | 李学康 |
地址 | 100083 北京市海淀区北四环中路211号 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种基于多模态特征提取与融合的语音情感识别方法,首先对输入的音频提取eGeMAPS声学特征集,该特征集定义了88个基本的语音情感分析特征,并规范化了对低层次声学特征的操作方法,解决了可解释性差的问题;其次,本发明提供了一种对用户特征以及音频内容文本特征进行提取的方法,并用层次自注意力将用户特征以及文本特征与声学特征进行融合,充分利用语料数据库中的多模态信息,对语音情感进行更加全面的建模,由此更加有效地实现语音情感识别;最后,本发明利用一种层次化的自注意力机制将多模态特征进行深度融合,以及将不同模态的特征在同一高维语义空间里对齐,增强了情感表述能力,从而提高了语音情感识别的准确率。 |
