一种基于词袋多目标学习的后缀翻译方法

基本信息

申请号 CN202010063184.1 申请日 -
公开(公告)号 CN111274827B 公开(公告)日 2021-05-28
申请公布号 CN111274827B 申请公布日 2021-05-28
分类号 G06N3/04(2006.01)I;G06F40/295(2020.01)I;G06N3/08(2006.01)I;G06K9/62(2006.01)I;G06F40/58(2020.01)I;G06F40/284(2020.01)I 分类 -
发明人 张学强;董晓飞;曹峰;石霖;孙明俊 申请(专利权)人 南京新一代人工智能研究院有限公司
代理机构 南京知识律师事务所 代理人 张苏沛
地址 210046江苏省南京市栖霞区新港开发区兴智路6-3兴智科技园A-6F
法律状态 -

摘要

摘要 本发明公开一种基于词袋多目标学习的后缀翻译方法,它通过后缀方法和词袋方法的融合将预翻译或查词典得到低频词的目标译文输入到神经网络翻译模型中进行有效学习,达到同时学习低频词翻译和文本翻译的目的。本发明的翻译方法,以后缀的形式将其置于句末,在给定翻译提示的前提下保持原有双语句对的通顺流畅;与此同时,将目标译文置于词袋能够在允许低频词译文换序的前提下进行子目标学习。本发明将后缀和词袋的两种方法的优势结合起来,以达到针对低频词进行增强学习的目的。其中,后缀方法能够以软机制的形式将低频词目标译文作为交互提示输入给翻译模型,词袋方法则通过子任务学习,对输出译文中不含有提示信息的部分进行有效惩罚。