一种用于构建神经机器翻译模型建模单元的输入编码方法

基本信息

申请号 CN202110531410.9 申请日 -
公开(公告)号 CN113392622A 公开(公告)日 2021-09-14
申请公布号 CN113392622A 申请公布日 2021-09-14
分类号 G06F40/126(2020.01)I;G06F40/284(2020.01)I;G06F40/289(2020.01)I;G06F40/30(2020.01)I;G06F40/58(2020.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I 分类 计算;推算;计数;
发明人 袁仲达;滕俊平 申请(专利权)人 南京汉智文科技有限公司
代理机构 苏州言思嘉信专利代理事务所(普通合伙) 代理人 叶晓龙
地址 210032江苏省南京市中国(江苏)自由贸易试验区南京片区团结路99号孵鹰大厦2021室
法律状态 -

摘要

摘要 本发明公开了一种用于构建神经机器翻译模型建模单元的输入编码方法,基于带注意力机制的编码器-解码器结构,涉及神经机器翻译处理没有明确词语边界语言的技术领域,其特征在于,对翻译模型碰到集内词和集外词分别进行处理,采用完全不同的编码方式进行处理。对于集内词直接通过查询词语向量表得到词语表示,对于集外词,将集外词所在句子全部拆分成相应的字符序列,通过双向行卷积模块从字符序列中自动合成词语信息,并将合成的词语信息作为神经翻译机器编码器的后续模块输入。