一种语言模型训练方法、汉语拼音输入方法及装置

基本信息

申请号 CN201910024064.8 申请日 -
公开(公告)号 CN109739370B 公开(公告)日 2019-09-03
申请公布号 CN109739370B 申请公布日 2019-09-03
分类号 G06F3/023;G06F17/22;G06N3/04;G06N3/08 分类 计算;推算;计数;
发明人 汪磊 申请(专利权)人 北京帝派智能科技有限公司
代理机构 北京弘权知识产权代理事务所(普通合伙) 代理人 北京帝派智能科技有限公司
地址 100107 北京市朝阳区北苑路甲13号院1号楼16层
法律状态 -

摘要

摘要 本申请实施例提供了一种语言模型训练方法及装置,该语言模型包括编码器和解码器。该方法包括:获取训练数据,训练数据包括成对的拼音编码序列和汉字编码序列,拼音序列包含多个拼音编码,每个拼音编码对应一个音节,汉字编码序列包含多个汉字编码,每个汉字编码对应一个汉字;以拼音编码序列作为编码器的输入,输出拼音编码序列的全局上下文特征和音节发音特征;以编码器输出的全局上下文特征和音节发音特征以及前序汉字编码序列作为解码器的输入,以汉字编码序列为解码器的目标输出,训练语言模型。从而,将该语言模型应用到输入法中,能够使输入法具备准确的整句输入能力,从而解决了现有技术的汉语拼音输入方法整句输入准确性差的问题。