基于GlusterFS分布式文件系统的离线去重方法

基本信息

申请号 CN201711317259.9 申请日 -
公开(公告)号 CN108563649B 公开(公告)日 2021-12-07
申请公布号 CN108563649B 申请公布日 2021-12-07
分类号 G06F16/174;G06F16/182 分类 计算;推算;计数;
发明人 庄鹏盛;李丹;王凯;张冠枭 申请(专利权)人 南京富士通南大软件技术有限公司
代理机构 南京钟山专利代理有限公司 代理人 戴朝荣
地址 210012 江苏省南京市雨花台区文竹路6号
法律状态 -

摘要

摘要 本发明公开了一种基于GlusterFS分布式文件系统的离线去重方法,包括:计算所有文件的哈希值;将文件的大小和该文件的哈希值作为Key值,建立哈希树;择一组大小相同且哈希值相同的多个文件并标记为相同文件;根据分布式文件系统中每个存储设备的剩余容量大小和每个存储设备中存储的相同文件的个数从分布式文件系统中选择一个存储设备并将该存储设备标记为指定移动存储设备;将分布式文件系统中的存储设备中存储的相同文件均移动到指定移动存储设备中;采用文件去重方法从指定移动存储设备中删除相同文件,保证相同文件只有一份;本发明有效地解决了分布式存储中可能存在的大量重复数据的问题,大大提升了分布式存储系统的存储能力。