一种基于Word2Vec的中文问答语义相似度计算方法

基本信息

申请号 CN201710661607.8 申请日 -
公开(公告)号 CN107436864A 公开(公告)日 2017-12-05
申请公布号 CN107436864A 申请公布日 2017-12-05
分类号 G06F17/27(2006.01)I;G06F17/30(2006.01)I 分类 计算;推算;计数;
发明人 王春辉 申请(专利权)人 逸途(北京)科技有限公司
代理机构 北京国坤专利代理事务所(普通合伙) 代理人 逸途(北京)科技有限公司
地址 100015 北京市朝阳区酒仙桥路4号宏源大厦1904
法律状态 -

摘要

摘要 本发明公开了一种基于Word2Vec的中文问答语义相似度计算方法,包括文本预处理、向量表示和相似度计算。本发明的有益效果是:提出的中文问答语义相似度计算方法结合了基于关键词的文本相似度以及基于Word2Vec的语义相似度,具有较高的效率和准确率,综合重合关键词的文本相似度与非重合关键词的语义相似度,一方面引入语义,解决了关键词高度重合的文本语义相似度计算问题,另一方面避免了短文本造成的语义相似度计算存在较大误差的问题,提高了中文语句相似度计算的准确性。