一种双语短文本匹配方法
基本信息
申请号 | CN202010386142.1 | 申请日 | - |
公开(公告)号 | CN111553168A | 公开(公告)日 | 2020-08-18 |
申请公布号 | CN111553168A | 申请公布日 | 2020-08-18 |
分类号 | G06F40/30(2020.01)I | 分类 | - |
发明人 | 王春辉;胡勇 | 申请(专利权)人 | 识因智能科技(北京)有限公司 |
代理机构 | 北京中北知识产权代理有限公司 | 代理人 | 识因智能科技(北京)有限公司 |
地址 | 102600北京市大兴区宏福路8号1层133室 | ||
法律状态 | - |
摘要
摘要 | 本发明公开一种双语短文本匹配方法。所述方法包括:建立双语LDA模型;将包含相同主题的不同语言的两个短文本,分别输入双语LDA模型,得到两个短文本的主题表示;将两个短文本分别经过embedding、双向LSTM,得到两个短文本的语义表示;将两个短文本的主题表示和语义表示分别串联起来,得到两个短文本向量;计算所述两个短文本向量的相似度,如果相似度大于设定的阈值,则所述两个短文本相似。本发明通过建立双语LDA模型,将获得的短文本的主题表示与语义表示串联,扩展了短文本的语义信息,缓解了跨语言短文本的语义鸿沟,提高了跨语言短文本匹配的准确度。 |
