一种实现重复数据数据删除的方法和系统

基本信息

申请号 CN200910136595.2 申请日 -
公开(公告)号 CN101882141A 公开(公告)日 2010-11-10
申请公布号 CN101882141A 申请公布日 2010-11-10
分类号 G06F17/30(2006.01)I;G06F11/14(2006.01)I 分类 计算;推算;计数;
发明人 张庆敏;胡刚;谢海威;郭栋 申请(专利权)人 北京众志和达数据计算有限公司
代理机构 - 代理人 -
地址 100089 北京市海淀区厂洼中路1号国家行政学院欣正大厦606室
法律状态 -

摘要

摘要 本发明提供一种实现重复数据数据删除的方法,包括:通过simhash(相似性哈希)算法计算数据的相似度;通过相似度定位存储位置,把相似度计入索引库;把数据写入数据仓库。如果有相同的相似度的数据进来的话,把数据仓库中对应的数据提取出来,然后进行二进制比对;如果相同则记录索引,如果不同则记录不同的数据部分。本发明还提供了一种实现重复数据数据删除的系统,包括:相似度标示库(BitMap)、数据偏移的标示库和数据仓库(LBAMap),记录原始数据的存储库(Resp)。所述方法和系统基于相似性哈希算法理论,通过数据对比保证数据一致性,既高效的完成了重复数据删除,又保证了数据的一致性。