一种基于多模态学习的视觉对话生成方法及装置

基本信息

申请号 CN202110848206.X 申请日 -
公开(公告)号 CN113553418A 公开(公告)日 2021-10-26
申请公布号 CN113553418A 申请公布日 2021-10-26
分类号 G06F16/332(2019.01)I;G06F16/583(2019.01)I;G06F40/211(2020.01)I;G06F40/30(2020.01)I;G06F40/253(2020.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I 分类 计算;推算;计数;
发明人 刘安安;张国楷;徐宁;宋丹;靳国庆;张勇东 申请(专利权)人 人民网股份有限公司
代理机构 天津市北洋有限责任专利代理事务所 代理人 李林娟
地址 300072天津市南开区卫津路92号
法律状态 -

摘要

摘要 本发明公开了一种基于多模态学习的视觉对话生成方法及装置,方法包括:利用关键信息进行全局上下文信息语义补充,提取与当前问题相关的历史对话信息,获取精简历史信息;再提取与文本信息相关的视觉区域信息,获取精简视觉信息;将多模态问题相关信息进行融合得到多模态问题相关信息,作为答案推理的重要元素;用文本和视觉的问题相关信息对三元组结构化表征进行语义补全,以补全在多模态信息精简化过程中损失掉的有效信息;将精简历史信息、精简视觉信息、补全后的多模态问题相关信息进行特征融合;将特征融合信息送入解码器中推理得到与当前问题相关的答案。装置包括:处理器和存储器。本发明采用多模态信息交互,对文本和视觉信息发掘细粒度关系信息。