一种基于人工智能的多模态语义识别服务接入方法

基本信息

申请号 CN202011036983.6 申请日 -
公开(公告)号 CN112201228A 公开(公告)日 2021-01-08
申请公布号 CN112201228A 申请公布日 2021-01-08
分类号 G10L15/18(2013.01)I 分类 乐器;声学;
发明人 黄晨宇 申请(专利权)人 苏州贝果智能科技有限公司
代理机构 - 代理人 -
地址 215000江苏省苏州市昆山市花桥经济开发区金星路18号A6栋三层303室
法律状态 -

摘要

摘要 本发明公开了一种基于人工智能的多模态语义识别服务接入方法,包括基于多模态对齐的语音情感识别的模型,首先通过语音进行识别,识别时,通过视频设备、录音设备进行语音的收集,收集好的语音信息先进行分类,分类后的语音进行特征标记,然后将收集好的语音进行分析,利用双向长短期记忆模型对音频基于帧进行高维特征表示。本发明利用多模态模型比单一模态训练出的模型更精准,所以即使在实际使用中只使用一个模态输入,由多模态训练得到的模型也会优于单模态训练得到的模型,对不同模态的关联融合进行中间层特征融合和最后层的融合时,每种模态的特征识别产生各自的置信度,从而在互相融合时将置信度作为贡献的权重。