相似数据排重方法

基本信息

申请号 CN201110023939.6 申请日 -
公开(公告)号 CN102609419B 公开(公告)日 2015-02-18
申请公布号 CN102609419B 申请公布日 2015-02-18
分类号 G06F17/30(2006.01)I 分类 计算;推算;计数;
发明人 杨健 申请(专利权)人 北京世纪读秀技术有限公司
代理机构 - 代理人 -
地址 100085 北京市海淀区上地三街九号嘉华大厦C-710
法律状态 -

摘要

摘要 本发明提供了一种相似数据排重方法,包括以下步骤:将所获取的相似数据输入至服务器;提取相似数据的特征向量,对特征向量的每个信息进行预处理,得到每个信息的字符型索引数据;对每个索引数据进行编码转换,生成每个信息的数值型哈希数据;以及根据信息的权重,逐一判断特征向量的哈希数据与数据库服务器中存储的标准数据信息是否为相同的数据,并将结果返回给用户。通过本发明的方法可以快速的对数据不同但反应信息相同的相似数据进行排重处理,且其正确率高,稳定性好。