一种基于信息指纹的相似信息识别方法

基本信息

申请号 CN201310402465.5 申请日 -
公开(公告)号 CN103425639A 公开(公告)日 2013-12-04
申请公布号 CN103425639A 申请公布日 2013-12-04
分类号 G06F17/27(2006.01)I 分类 计算;推算;计数;
发明人 戴森 申请(专利权)人 广州市一呼百应网络技术股份有限公司
代理机构 广州致信伟盛知识产权代理有限公司 代理人 李东来
地址 510530 广东省广州市科学城科学大道162号创意大厦b3区四楼
法律状态 -

摘要

摘要 本发明公开了一种基于信息指纹的相似信息识别方法,该方法首先对文档的文本进行中文分词,然后统计词频,取出词频靠前的词,作为特征值;再根据提取出来的特征值计算出文档的信息指纹,最后比对两篇文档的信息指纹,若比对结果大于阀值,则判断为相似文章。该方法可避免现有技术中需要根据两篇文档中的所有信息对应进行计算比较,大大减低计算复杂度。由于文档的信息指纹具有唯一性,在多篇文档判断相似性时,只需相互间比对信息指纹即可,可有效提高工作效率。