文本相似度、词义相似度计算方法和系统及应用系统
基本信息
申请号 | CN200710118224.2 | 申请日 | - |
公开(公告)号 | CN101079026B | 公开(公告)日 | 2011-01-26 |
申请公布号 | CN101079026B | 申请公布日 | 2011-01-26 |
分类号 | G06F17/27(2006.01)I;G06F17/30(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 刘文印 | 申请(专利权)人 | 广东东华发思特软件有限公司 |
代理机构 | 北京律诚同业知识产权代理有限公司 | 代理人 | 梁挥;常大军 |
地址 | 519080 广东省珠海南方软件园西苑D1栋202-204室 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种文本相似度、词义相似度计算方法和系统及应用系统。该方法包括下列步骤:根据词汇数据库进行初始化,计算得到所述词汇数据库中词汇间的初始词义相似度,并根据初始词义相似度计算文本间的初始语义相似度;根据初始化得到的词汇间的词义相似度和文本间的初始语义相似度,交替迭代计算文本集中的各个文本间的语义相似度和词汇间的词义相似度直至收敛,根据迭代计算的收敛结果,以最终词义相似度构造所有词汇间的最终词义相似矩阵;根据所述最终词义相似矩阵,将原始文本的文本词频向量变换为新的文本词频向量,计算出所述文本集中文本相似度。其能够显著提高现有的文本相关的,特别是有关短文本的信息检索技术的性能。 |
