一种双语短文本匹配方法

基本信息

申请号 CN202010386142.1 申请日 -
公开(公告)号 CN111553168A 公开(公告)日 2020-08-18
申请公布号 CN111553168A 申请公布日 2020-08-18
分类号 G06F40/30(2020.01)I 分类 -
发明人 王春辉;胡勇 申请(专利权)人 识因智能科技(北京)有限公司
代理机构 北京中北知识产权代理有限公司 代理人 识因智能科技(北京)有限公司
地址 102600北京市大兴区宏福路8号1层133室
法律状态 -

摘要

摘要 本发明公开一种双语短文本匹配方法。所述方法包括:建立双语LDA模型;将包含相同主题的不同语言的两个短文本,分别输入双语LDA模型,得到两个短文本的主题表示;将两个短文本分别经过embedding、双向LSTM,得到两个短文本的语义表示;将两个短文本的主题表示和语义表示分别串联起来,得到两个短文本向量;计算所述两个短文本向量的相似度,如果相似度大于设定的阈值,则所述两个短文本相似。本发明通过建立双语LDA模型,将获得的短文本的主题表示与语义表示串联,扩展了短文本的语义信息,缓解了跨语言短文本的语义鸿沟,提高了跨语言短文本匹配的准确度。