一种文本相似度确定方法、装置、设备及存储介质

基本信息

申请号 CN201810937072.7 申请日 -
公开(公告)号 CN109145299A 公开(公告)日 2019-01-04
申请公布号 CN109145299A 申请公布日 2019-01-04
分类号 G06F17/27;G06F16/35;G06K9/62 分类 计算;推算;计数;
发明人 史文丽;王晨光 申请(专利权)人 北京金山安全软件有限公司
代理机构 北京柏杉松知识产权代理事务所(普通合伙) 代理人 北京金山安全软件有限公司
地址 100123 北京市朝阳区姚家园南路1号惠通时代广场8号楼
法律状态 -

摘要

摘要 本发明实施例提供了一种文本相似度确定方法、装置、设备及存储介质,其中,该方法包括;确定待分析文本;对待分析文本进行分句,得到待分析文本对应的多个句子;针对每个句子,将该句子输入至预先训练的神经网络模型,得到该句子对应的语义特征向量,其中,神经网络模型是根据多个第一训练样本以及多个第一训练样本分别对应的关联句子训练得到的;根据每个句子对应的语义特征向量,确定待分析文本对应的特定特征向量;计算待分析文本对应的特定特征向量之间的相似度,并将该相似度作为待分析文本之间的相似度。如此,能够提高文本相似度确定的准确度。