一种规避机器翻译译文片段重复的方法

基本信息

申请号 CN202110743012.3 申请日 -
公开(公告)号 CN113191165B 公开(公告)日 2021-09-24
申请公布号 CN113191165B 申请公布日 2021-09-24
分类号 G06F40/58;G06F40/44;G06F40/242 分类 计算;推算;计数;
发明人 张学强;张丹;董晓飞;万怡方;曹峰 申请(专利权)人 南京新一代人工智能研究院有限公司
代理机构 南京知识律师事务所 代理人 张苏沛
地址 210046 江苏省南京市栖霞区新港开发区兴智路6-3兴智科技园A-6F
法律状态 -

摘要

摘要 本发明公开一种规避机器翻译译文片段重复的方法,属于自然语言处理中的机器翻译领域,在机器翻译的贪婪算法解码过程中,利用译文重复片段检测机制,对重复的生成的目标词语的生成概率进行惩罚,随着重复片段的长度增加,依次对目标词生成概率进行对数级、线性级、指数级惩罚,从而达到规避机器翻译生成重复片段的目的,本发明阶梯惩罚、逐步加重,保证既不过多影响原有译文解码过程,也能有效降低重复片段惩罚的漏警率;本发明充分考虑了原文中存在重复片段的情况,允许译文的重复片段长度小于或等于原文重复片段的长度,因此最大程度上保证了原文和译文的一致性,即降低了本提案方法的虚警率。