一种跨领域的双语篇章可比度量化方法

基本信息

申请号 CN202111447702.0 申请日 -
公开(公告)号 CN114139559A 公开(公告)日 2022-03-04
申请公布号 CN114139559A 申请公布日 2022-03-04
分类号 G06F40/58(2020.01)I;G06F40/216(2020.01)I;G06F40/289(2020.01)I;G06F40/44(2020.01)I 分类 计算;推算;计数;
发明人 吕飞;朱泽德;王卫;陈晓虎;郑守国 申请(专利权)人 合肥技术创新工程院
代理机构 合肥九道和专利代理事务所(特殊普通合伙) 代理人 胡发丁
地址 230088安徽省合肥市习友路2666号
法律状态 -

摘要

摘要 本发明特别涉及一种跨领域的双语篇章可比度量化方法,包括如下步骤:S100、对现有可比语料进行中文分词、英文词性还原、过滤停用词等预处理,训练双语主题模型;S200、预测源语言篇章和目标语言篇章的主题分布,计算不同语言篇章的相关性;S300、通过不同语言词汇的主题分布,计算不同语言词汇的相关性,扩充双语知识在不同领域的适应性,利用词汇计算不同语言篇章的相关性;S400、利用不同语言篇章主题和词汇的相关性,进行不同语言篇章可比度的量化。通过双语主题进行不同语言词汇相关性计算,扩充领域双语知识,提升篇章可比度量化对不同领域的自适应能力,增强篇章可比度量化的效果。