自重建方式的语言模型训练方法、系统及计算机可读介质

基本信息

申请号 CN201911056884.1 申请日 -
公开(公告)号 CN110837733A 公开(公告)日 2020-02-25
申请公布号 CN110837733A 申请公布日 2020-02-25
分类号 G06F40/289;G06N3/04;G06N3/08 分类 计算;推算;计数;
发明人 白佳欣;宋彦 申请(专利权)人 创新工场(广州)人工智能研究有限公司
代理机构 深圳市智享知识产权代理有限公司 代理人 王琴;梁琴琴
地址 510000 广东省广州市黄埔区光谱中路23号A2栋1001房
法律状态 -

摘要

摘要 本发明涉及语言处理技术领域,尤其涉及一种自重建方式的语言模型训练方法,其包括如下步骤:步骤S1:从预训练文本中提取至少一句待训练语句并将其分割为单字序列,对应单子序列经过位置编码映射成文本矩阵;步骤S2:结合transformer模型和自注意力机制建立神经网络结构;步骤S3:文本矩阵作为神经网络结构的输入样本,将transformer模型作为参数进行训练并优化后得到目标函数;步骤S4:通过重复步骤S1~S3更新目标函数,直至达到设定的优化条件从而获取预训练模型。本发明还提供一种系统及计算机可读介质。