视觉问答处理方法、设备、计算机可读介质和程序产品
基本信息
申请号 | CN202110994133.5 | 申请日 | - |
公开(公告)号 | CN113722458A | 公开(公告)日 | 2021-11-30 |
申请公布号 | CN113722458A | 申请公布日 | 2021-11-30 |
分类号 | G06F16/332(2019.01)I;G06F40/279(2020.01)I;G06F40/35(2020.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I;G10L15/16(2006.01)I;G10L15/18(2013.01)I;H04N21/422(2011.01)I;H04N21/475(2011.01)I | 分类 | 计算;推算;计数; |
发明人 | 连欢;朱飞 | 申请(专利权)人 | 海信电子科技(武汉)有限公司 |
代理机构 | 北京同立钧成知识产权代理有限公司 | 代理人 | 朱颖;刘芳 |
地址 | 430073湖北省武汉市东湖新技术开发区软件园东路1号软件产业4.1期B2栋13层02号-2 | ||
法律状态 | - |
摘要
摘要 | 本申请提供一种视觉问答处理方法、设备、计算机可读介质和程序产品。该方法包括:接收用户通过交互接口输入的提问指令,并获取提问指令及对应的显示画面;对提问指令的意图类型进行识别;若识别出意图类型为非通用类型,则将提问指令输入至对应的典型属性模型得到提问指令的答案信息;若识别出意图类型为通用类型,则将提问指令输入至通用视觉问答VQA模型以对提问指令与显示画面进行深度协同注意力学习,得到提问指令的答案信息;将指令的答案信息输出给用户。本申请的方法,针对提问的意图类型可输入至对应的典型属性模型或VQA模型,为从显示画面中确定提问指令的答案提供了更多维度的匹配方法,提升了视觉问答结果的准确率。 |
