一种用于翻译任务的语言建模系统结构搜索方法
基本信息
申请号 | CN202110415433.3 | 申请日 | - |
公开(公告)号 | CN113111668A | 公开(公告)日 | 2021-07-13 |
申请公布号 | CN113111668A | 申请公布日 | 2021-07-13 |
分类号 | G06F40/58(2020.01)I;G06F16/335(2019.01)I;G06F30/27(2020.01)I;G06F40/205(2020.01)I;G06N20/00(2019.01)I | 分类 | 计算;推算;计数; |
发明人 | 杜权 | 申请(专利权)人 | 沈阳雅译网络技术有限公司 |
代理机构 | 沈阳新科知识产权代理事务所(特殊普通合伙) | 代理人 | 李晓光 |
地址 | 110004辽宁省沈阳市和平区三好街78号东软电脑城C座11层 | ||
法律状态 | - |
摘要
摘要 | 本发明公开一种用于翻译任务的语言建模系统结构搜索方法,步骤为:通过互联网获得训练数据并处理,对网络结构表示空间进行建模并训练;对训练过程中元结构拓扑和操作的结构参数数值进行归一化操作;对使用的模型的结构参数以及模型参数进行优化,对网络结构以及目标参数进行调优;根据调优后得到的不同拓扑和操作的权重差异进一步得到离散化的最终结构,该搜索结果中包括元结构的拓扑结构以及节点间使用的操作;对搜索到的元结构使用元结构之间的连接方式循环展开,得到整体的模型,使用训练数据对该模型再次进行参数调优,最终训练到收敛为止。本发明大大提升模型结构最优解落在搜索结构的表示空间的可能性,从而提升网络结构搜索方法的有效性。 |
