一种基于预训练模型的词对齐性能提升方法

基本信息

申请号 CN202110695209.4 申请日 -
公开(公告)号 CN113408267A 公开(公告)日 2021-09-17
申请公布号 CN113408267A 申请公布日 2021-09-17
分类号 G06F40/216(2020.01)I;G06K9/62(2006.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I 分类 计算;推算;计数;
发明人 徐萍;姜炎宏;毕东;宁义明 申请(专利权)人 沈阳雅译网络技术有限公司
代理机构 沈阳新科知识产权代理事务所(特殊普通合伙) 代理人 李晓光
地址 110004辽宁省沈阳市和平区三好街78号东软电脑城C座11层
法律状态 -

摘要

摘要 本发明公开一种基于预训练模型的词对齐性能提升方法,步骤为:使用预训练模型获取句子中词语的词向量,构成互译句对的词向量矩阵X和Y;对词向量矩阵X和Y进行短语和术语的抽取,把短语和术语中的词的词向量进行加和平均处理,获得更新后的互译句对词向量矩阵X和Y;将词语和词语之间的词向量余弦计算值作为两个词之间的相似度,获得互译句对的相似度矩阵Sim;对Sim进行卷积操作,使得词对齐融入上下文词的信息;使用不同的词对齐抽取方法分别从更新后的互译句对相似度矩阵中抽取对应的词对齐信息。本发明通过基于预训练方法解决了深度学习需要训练数据大的问题,使用短语和术语表进行匹配,来解决预训练中词语之间相关度不大,而导致词语之间对齐不统一的问题。