面向指向性视觉理解和分割的图像描述预测方法
基本信息
申请号 | CN202011222105.3 | 申请日 | - |
公开(公告)号 | CN112308080A | 公开(公告)日 | 2021-02-02 |
申请公布号 | CN112308080A | 申请公布日 | 2021-02-02 |
分类号 | G06K9/34;G06K9/62;G06N3/04 | 分类 | 计算;推算;计数; |
发明人 | 王振宁;许金泉;王溢;蔡碧颖 | 申请(专利权)人 | 南强智视(厦门)科技有限公司 |
代理机构 | 泉州市潭思专利代理事务所(普通合伙) | 代理人 | 廖仲禧;麻艳 |
地址 | 361000 福建省厦门市湖里区火炬高新区软件园创新大厦A区402 | ||
法律状态 | - |
摘要
摘要 | 本发明公开一种面向指向性视觉理解和分割的图像描述预测方法,用于根据RGB图像和描述语言,在RGB图像中定位描述语言指代的对象;包括如下步骤:分别获取RGB图像在三个尺度的视觉特征:Fv1,Fv2,Fv3,以及描述语言的语言特征;将语言特征与视觉特征Fv1融合,然后进行多尺度的融合,进而通过自底而下的融合,得到新的特征为{Fm1′,Fm2′,Fm3′};利用Fm3′预测得到指向性视觉分割结果,利用Fm1′预测得到指向性视觉理解结果;给定预测得到的指向性视觉分割结果,以及指向性视觉理解结果的目标框和其对应的置信度,利用指向性视觉理解的预测结果来自适应地增强并重新得到指向性视觉分割的预测结果。此种预测方法可提高预测精度。 |
