一种文本相似度计算方法、终端设备及存储介质
基本信息
申请号 | CN201910954112.3 | 申请日 | - |
公开(公告)号 | CN110705248A | 公开(公告)日 | 2020-01-17 |
申请公布号 | CN110705248A | 申请公布日 | 2020-01-17 |
分类号 | G06F40/194;G06F40/216;G06F40/242 | 分类 | 计算;推算;计数; |
发明人 | 肖肇宇;刘继明;于敏敏;高力伟 | 申请(专利权)人 | 厦门今立方科技有限公司 |
代理机构 | 厦门市精诚新创知识产权代理有限公司 | 代理人 | 何家富 |
地址 | 361000 福建省厦门市软件园三期诚毅大街339号1903单元 | ||
法律状态 | - |
摘要
摘要 | 本发明涉及一种文本相似度计算方法、终端设备及存储介质,该方法中包括:S1:将待比对的两个文本数据进行预处理;S2:将预处理后的两个文本数据进行同义词归一化操作;S3:计算每个文本数据的文本向量;S4:将两个文本数据的文本向量共同组成文本矩阵X,对该文本矩阵X进行奇异值分解,并计算文本矩阵X中去除主要成分后的矩阵Y;S5:从矩阵Y中提取出两个文本数据对应的向量作为其优选文本向量,根据每个文本数据对应的优选文本向量计算两个文本数据之间的相似度。本发明考虑了同一领域范围内,某一词出现的频率越高,则等同于其重要性越低的问题,且在去除无意义信息的同时,保持该领域内的关键词信息,从而提升相似度计算的准确度。 |
