一种结合动态词汇增强的模型蒸馏方法
基本信息
申请号 | CN202110309962.5 | 申请日 | - |
公开(公告)号 | CN112699678A | 公开(公告)日 | 2021-06-18 |
申请公布号 | CN112699678A | 申请公布日 | 2021-06-18 |
分类号 | G06F40/284;G06F40/242;G06N20/00 | 分类 | 计算;推算;计数; |
发明人 | 顾嘉晟;李瀚清;岳小龙;高翔;纪达麒;陈运文 | 申请(专利权)人 | 达而观数据(成都)有限公司 |
代理机构 | 成都九鼎天元知识产权代理有限公司 | 代理人 | 贾年龙 |
地址 | 610015 四川省成都市天府新区湖畔路北段366号1栋3楼1号 | ||
法律状态 | - |
摘要
摘要 | 本发明涉及人工智能领域中的自然语言处理技术领域,公开了一种结合动态词汇增强的模型蒸馏方法,包括:在ALBert语言模型的基础上,通过微调技术结合动态词汇增强技术对语言模型进行调整,得到微调后的语言模型,将其作为教师模型;在对语言模型进行微调时,不同于常规的微调逻辑,在微调过程中,先将词典信息的特征与语言模型的输出特征进行合并,然后再进行微调;微调结束后,对教师模型进行蒸馏,将获取的模型预测结果作为学生模型的训练依据。本发明提供的模型蒸馏方法,通过引入词典信息作为关键信息,使得模型在大幅缩减尺寸的情况下仍然可以捕获词典信息作为特征,从而达到在不牺牲抽取准确性的情况下大幅降低模型尺寸、加快推断速度的目的。 |
