一种结合动态词汇增强的模型蒸馏方法

基本信息

申请号 CN202110309962.5 申请日 -
公开(公告)号 CN112699678A 公开(公告)日 2021-06-18
申请公布号 CN112699678A 申请公布日 2021-06-18
分类号 G06F40/284;G06F40/242;G06N20/00 分类 计算;推算;计数;
发明人 顾嘉晟;李瀚清;岳小龙;高翔;纪达麒;陈运文 申请(专利权)人 达而观数据(成都)有限公司
代理机构 成都九鼎天元知识产权代理有限公司 代理人 贾年龙
地址 610015 四川省成都市天府新区湖畔路北段366号1栋3楼1号
法律状态 -

摘要

摘要 本发明涉及人工智能领域中的自然语言处理技术领域,公开了一种结合动态词汇增强的模型蒸馏方法,包括:在ALBert语言模型的基础上,通过微调技术结合动态词汇增强技术对语言模型进行调整,得到微调后的语言模型,将其作为教师模型;在对语言模型进行微调时,不同于常规的微调逻辑,在微调过程中,先将词典信息的特征与语言模型的输出特征进行合并,然后再进行微调;微调结束后,对教师模型进行蒸馏,将获取的模型预测结果作为学生模型的训练依据。本发明提供的模型蒸馏方法,通过引入词典信息作为关键信息,使得模型在大幅缩减尺寸的情况下仍然可以捕获词典信息作为特征,从而达到在不牺牲抽取准确性的情况下大幅降低模型尺寸、加快推断速度的目的。