一种规避机器翻译译文片段重复的方法
基本信息
申请号 | CN202110743012.3 | 申请日 | - |
公开(公告)号 | CN113191165A | 公开(公告)日 | 2021-07-30 |
申请公布号 | CN113191165A | 申请公布日 | 2021-07-30 |
分类号 | G06F40/58(2020.01)I;G06F40/44(2020.01)I;G06F40/242(2020.01)I | 分类 | 计算;推算;计数; |
发明人 | 张学强;张丹;董晓飞;万怡方;曹峰 | 申请(专利权)人 | 南京新一代人工智能研究院有限公司 |
代理机构 | 南京知识律师事务所 | 代理人 | 张苏沛 |
地址 | 210046江苏省南京市栖霞区新港开发区兴智路6-3兴智科技园A-6F | ||
法律状态 | - |
摘要
摘要 | 本发明公开一种规避机器翻译译文片段重复的方法,属于自然语言处理中的机器翻译领域,在机器翻译的贪婪算法解码过程中,利用译文重复片段检测机制,对重复的生成的目标词语的生成概率进行惩罚,随着重复片段的长度增加,依次对目标词生成概率进行对数级、线性级、指数级惩罚,从而达到规避机器翻译生成重复片段的目的,本发明阶梯惩罚、逐步加重,保证既不过多影响原有译文解码过程,也能有效降低重复片段惩罚的漏警率;本发明充分考虑了原文中存在重复片段的情况,允许译文的重复片段长度小于或等于原文重复片段的长度,因此最大程度上保证了原文和译文的一致性,即降低了本提案方法的虚警率。 |
