一种实现重复数据数据删除的方法和系统
基本信息
申请号 | CN200910136595.2 | 申请日 | - |
公开(公告)号 | CN101882141A | 公开(公告)日 | 2010-11-10 |
申请公布号 | CN101882141A | 申请公布日 | 2010-11-10 |
分类号 | G06F17/30(2006.01)I;G06F11/14(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 张庆敏;胡刚;谢海威;郭栋 | 申请(专利权)人 | 北京众志和达数据计算有限公司 |
代理机构 | - | 代理人 | - |
地址 | 100089 北京市海淀区厂洼中路1号国家行政学院欣正大厦606室 | ||
法律状态 | - |
摘要
摘要 | 本发明提供一种实现重复数据数据删除的方法,包括:通过simhash(相似性哈希)算法计算数据的相似度;通过相似度定位存储位置,把相似度计入索引库;把数据写入数据仓库。如果有相同的相似度的数据进来的话,把数据仓库中对应的数据提取出来,然后进行二进制比对;如果相同则记录索引,如果不同则记录不同的数据部分。本发明还提供了一种实现重复数据数据删除的系统,包括:相似度标示库(BitMap)、数据偏移的标示库和数据仓库(LBAMap),记录原始数据的存储库(Resp)。所述方法和系统基于相似性哈希算法理论,通过数据对比保证数据一致性,既高效的完成了重复数据删除,又保证了数据的一致性。 |
