一种基于多模态学习的视觉对话生成方法及装置
基本信息
申请号 | CN202110848206.X | 申请日 | - |
公开(公告)号 | CN113553418A | 公开(公告)日 | 2021-10-26 |
申请公布号 | CN113553418A | 申请公布日 | 2021-10-26 |
分类号 | G06F16/332(2019.01)I;G06F16/583(2019.01)I;G06F40/211(2020.01)I;G06F40/30(2020.01)I;G06F40/253(2020.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 刘安安;张国楷;徐宁;宋丹;靳国庆;张勇东 | 申请(专利权)人 | 人民网股份有限公司 |
代理机构 | 天津市北洋有限责任专利代理事务所 | 代理人 | 李林娟 |
地址 | 300072天津市南开区卫津路92号 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种基于多模态学习的视觉对话生成方法及装置,方法包括:利用关键信息进行全局上下文信息语义补充,提取与当前问题相关的历史对话信息,获取精简历史信息;再提取与文本信息相关的视觉区域信息,获取精简视觉信息;将多模态问题相关信息进行融合得到多模态问题相关信息,作为答案推理的重要元素;用文本和视觉的问题相关信息对三元组结构化表征进行语义补全,以补全在多模态信息精简化过程中损失掉的有效信息;将精简历史信息、精简视觉信息、补全后的多模态问题相关信息进行特征融合;将特征融合信息送入解码器中推理得到与当前问题相关的答案。装置包括:处理器和存储器。本发明采用多模态信息交互,对文本和视觉信息发掘细粒度关系信息。 |
