视觉问答处理方法、设备、计算机可读介质和程序产品

基本信息

申请号 CN202110994133.5 申请日 -
公开(公告)号 CN113722458A 公开(公告)日 2021-11-30
申请公布号 CN113722458A 申请公布日 2021-11-30
分类号 G06F16/332(2019.01)I;G06F40/279(2020.01)I;G06F40/35(2020.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I;G10L15/16(2006.01)I;G10L15/18(2013.01)I;H04N21/422(2011.01)I;H04N21/475(2011.01)I 分类 计算;推算;计数;
发明人 连欢;朱飞 申请(专利权)人 海信电子科技(武汉)有限公司
代理机构 北京同立钧成知识产权代理有限公司 代理人 朱颖;刘芳
地址 430073湖北省武汉市东湖新技术开发区软件园东路1号软件产业4.1期B2栋13层02号-2
法律状态 -

摘要

摘要 本申请提供一种视觉问答处理方法、设备、计算机可读介质和程序产品。该方法包括:接收用户通过交互接口输入的提问指令,并获取提问指令及对应的显示画面;对提问指令的意图类型进行识别;若识别出意图类型为非通用类型,则将提问指令输入至对应的典型属性模型得到提问指令的答案信息;若识别出意图类型为通用类型,则将提问指令输入至通用视觉问答VQA模型以对提问指令与显示画面进行深度协同注意力学习,得到提问指令的答案信息;将指令的答案信息输出给用户。本申请的方法,针对提问的意图类型可输入至对应的典型属性模型或VQA模型,为从显示画面中确定提问指令的答案提供了更多维度的匹配方法,提升了视觉问答结果的准确率。