一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法

基本信息

申请号 CN201410624648.6 申请日 -
公开(公告)号 CN104391885B 公开(公告)日 2017-07-28
申请公布号 CN104391885B 申请公布日 2017-07-28
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 分类 计算;推算;计数;
发明人 曹海龙;张捷鑫;赵铁军 申请(专利权)人 哈尔滨工业大学高新技术开发总公司
代理机构 哈尔滨市松花江专利商标事务所 代理人 哈尔滨工业大学;哈尔滨工业大学高新技术开发总公司
地址 150001 黑龙江省哈尔滨市南岗区西大直街92号
法律状态 -

摘要

摘要 一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法,本发明涉及可比语料平行短语对的抽取方法。本发明是要解决获取平行语料需要花费高、将最相近的上下文的两个单词或片段互为翻译应用到可比语料上存在对于双语词典依赖很严重的问题。该方法是通过1源语言句子集合S和目标语言句子集合T;2得到平行语料的短语对集合;3得到平行语料的平行短语对;4得到平行语料的非平行短语对;5得到支持向量机二元分类器;6抽取候选平行短语对<s,t>;7获得可比语料中包含噪声的平行短语对;8得到可比语料的平行短语对;9得到扩展解码器等步骤实现的。本发明应用于可比语料平行短语对的抽取领域。