一种基于人工智能的多模态语义识别服务接入方法
基本信息
申请号 | CN202011036983.6 | 申请日 | - |
公开(公告)号 | CN112201228A | 公开(公告)日 | 2021-01-08 |
申请公布号 | CN112201228A | 申请公布日 | 2021-01-08 |
分类号 | G10L15/18(2013.01)I | 分类 | 乐器;声学; |
发明人 | 黄晨宇 | 申请(专利权)人 | 苏州贝果智能科技有限公司 |
代理机构 | - | 代理人 | - |
地址 | 215000江苏省苏州市昆山市花桥经济开发区金星路18号A6栋三层303室 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种基于人工智能的多模态语义识别服务接入方法,包括基于多模态对齐的语音情感识别的模型,首先通过语音进行识别,识别时,通过视频设备、录音设备进行语音的收集,收集好的语音信息先进行分类,分类后的语音进行特征标记,然后将收集好的语音进行分析,利用双向长短期记忆模型对音频基于帧进行高维特征表示。本发明利用多模态模型比单一模态训练出的模型更精准,所以即使在实际使用中只使用一个模态输入,由多模态训练得到的模型也会优于单模态训练得到的模型,对不同模态的关联融合进行中间层特征融合和最后层的融合时,每种模态的特征识别产生各自的置信度,从而在互相融合时将置信度作为贡献的权重。 |
