一种跨领域的双语篇章可比度量化方法
基本信息
申请号 | CN202111447702.0 | 申请日 | - |
公开(公告)号 | CN114139559A | 公开(公告)日 | 2022-03-04 |
申请公布号 | CN114139559A | 申请公布日 | 2022-03-04 |
分类号 | G06F40/58(2020.01)I;G06F40/216(2020.01)I;G06F40/289(2020.01)I;G06F40/44(2020.01)I | 分类 | 计算;推算;计数; |
发明人 | 吕飞;朱泽德;王卫;陈晓虎;郑守国 | 申请(专利权)人 | 合肥技术创新工程院 |
代理机构 | 合肥九道和专利代理事务所(特殊普通合伙) | 代理人 | 胡发丁 |
地址 | 230088安徽省合肥市习友路2666号 | ||
法律状态 | - |
摘要
摘要 | 本发明特别涉及一种跨领域的双语篇章可比度量化方法,包括如下步骤:S100、对现有可比语料进行中文分词、英文词性还原、过滤停用词等预处理,训练双语主题模型;S200、预测源语言篇章和目标语言篇章的主题分布,计算不同语言篇章的相关性;S300、通过不同语言词汇的主题分布,计算不同语言词汇的相关性,扩充双语知识在不同领域的适应性,利用词汇计算不同语言篇章的相关性;S400、利用不同语言篇章主题和词汇的相关性,进行不同语言篇章可比度的量化。通过双语主题进行不同语言词汇相关性计算,扩充领域双语知识,提升篇章可比度量化对不同领域的自适应能力,增强篇章可比度量化的效果。 |
