基于自注意力的知识蒸馏方法、装置和计算机设备
基本信息
申请号 | CN202110059942.7 | 申请日 | - |
公开(公告)号 | CN112365385B | 公开(公告)日 | 2021-06-01 |
申请公布号 | CN112365385B | 申请公布日 | 2021-06-01 |
分类号 | G06F17/16(2006.01)I;G06N3/04(2006.01)I;G06Q10/06(2012.01)I;G06N20/00(2019.01)I;G06Q50/20(2012.01)I | 分类 | 计算;推算;计数; |
发明人 | 徐泓洋;王广新;杨汉丹 | 申请(专利权)人 | 深圳市友杰智新科技有限公司 |
代理机构 | 深圳市明日今典知识产权代理事务所(普通合伙) | 代理人 | 王杰辉;曹勇 |
地址 | 518000广东省深圳市南山区招商街道蛇口南海大道1079号花园城数码大厦A座402 | ||
法律状态 | - |
摘要
摘要 | 本申请涉及人工智能领域,揭示了基于自注意力的知识蒸馏方法,包括:将输入数据输入第一模型得到第一模型的中间层输出的第一特征矩阵,将输入数据输入第二模型得到第二模型的中间层输出的第二特征矩阵,其中,第一模型为训练好的老师模型,第二模型为待训练的学生模型;根据第一特征矩阵计算老师模型对应的第一自注意力权重分布,根据第二特征矩阵计算学生模型对应的第二自注意力权重分布;计算第一自注意力权重分布和第二自注意力权重分布之间的分布差异;将分布差异,作为老师模型和学生模型之间的知识蒸馏损失函数;根据知识蒸馏损失函数,将老师模型的中间层的数据映射关系迁移至学生模型的中间层上,能满足不同任务类型模型的知识蒸馏训练。 |
