一种基于多模态学习的视觉对话生成方法及装置专利查询专利号|摘要-满商公司网

一种基于多模态学习的视觉对话生成方法及装置

基本信息

申请号	CN202110848206.X	申请日	-
公开（公告）号	CN113553418A	公开（公告）日	2021-10-26
申请公布号	CN113553418A	申请公布日	2021-10-26
分类号	G06F16/332（2019.01）I;G06F16/583（2019.01）I;G06F40/211（2020.01）I;G06F40/30（2020.01）I;G06F40/253（2020.01）I;G06N3/04（2006.01）I;G06N3/08（2006.01）I	分类	计算；推算；计数;
发明人	刘安安;张国楷;徐宁;宋丹;靳国庆;张勇东	申请（专利权）人	人民网股份有限公司
代理机构	天津市北洋有限责任专利代理事务所	代理人	李林娟
地址	300072天津市南开区卫津路92号
法律状态	-

摘要

本发明公开了一种基于多模态学习的视觉对话生成方法及装置，方法包括：利用关键信息进行全局上下文信息语义补充，提取与当前问题相关的历史对话信息，获取精简历史信息；再提取与文本信息相关的视觉区域信息，获取精简视觉信息；将多模态问题相关信息进行融合得到多模态问题相关信息，作为答案推理的重要元素；用文本和视觉的问题相关信息对三元组结构化表征进行语义补全，以补全在多模态信息精简化过程中损失掉的有效信息；将精简历史信息、精简视觉信息、补全后的多模态问题相关信息进行特征融合；将特征融合信息送入解码器中推理得到与当前问题相关的答案。装置包括：处理器和存储器。本发明采用多模态信息交互，对文本和视觉信息发掘细粒度关系信息。