一种云存储文件级重复数据删除检索系统及方法

基本信息

申请号 CN201811384763.5 申请日 -
公开(公告)号 CN109213738A 公开(公告)日 2019-01-15
申请公布号 CN109213738A 申请公布日 2019-01-15
分类号 G06F16/174 分类 计算;推算;计数;
发明人 董志勇;邱琳;赵航;刘梦 申请(专利权)人 烽火科技集团有限公司
代理机构 湖北武汉永嘉专利代理有限公司 代理人 武汉理工光科股份有限公司;烽火科技集团有限公司
地址 430223 湖北省武汉市东湖高新区大学园路23号
法律状态 -

摘要

摘要 本发明公开了一种云存储文件级重复数据删除检索系统及方法,该方法通过指纹服务器存储文件的特征信息,当客户端提出文件存储申请时,首先进行粗过滤,在指纹服务器中进行查找,如果没有找到具备相同特征的文件记录,则视该文件为新文件;如果找到,则进行细过滤,将被找到的文件集视为比对文件,依次选取比对文件的随机点位和特征区间,进行精确比对,以确认请求文件是否已存在,如果是,则在名称服务器中设置请求文件的元数据指向该比对文件的元数据,如果不存在,则将文件存储,并记录文件特征信息到指纹服务器中。本发明通过粗、细两个步骤的过滤,能够大量减少重复文件的录入,具有执行效率高、重复数据删除率高的特点,适合于大数据和云存储环境。