大数据查重方法、装置、计算机设备及存储介质

基本信息

申请号 CN201911115294.1 申请日 -
公开(公告)号 CN110909019A 公开(公告)日 2020-03-24
申请公布号 CN110909019A 申请公布日 2020-03-24
分类号 G06F16/242;G06F16/248 分类 计算;推算;计数;
发明人 林必毅;熊俊杰;宋梦培;朱吉山;袁爱钧;李颖;杨瑞;李靖 申请(专利权)人 湖南赛吉智慧城市建设管理有限公司
代理机构 深圳市精英专利事务所 代理人 湖南赛吉智慧城市建设管理有限公司
地址 416000 湖南省湘西土家族苗族自治州吉首市乾州新区世纪大道总部经济大楼十四层
法律状态 -

摘要

摘要 本发明涉及大数据查重方法、装置、计算机设备及存储介质,该方法包括获取需查重数据;预处理需查重数据,以得到Simhash值;根据该值内需要确认重复的数值进行组构建以得到分组,将需查重数据归类至分组内以得到组内数据数量;当组内数据数量不预设条件,剔除组内数据数量最多的分组以得到目标分组;对目标分组内的数据计算相似度比较值以得到相似度值;判断相似度值是否超过预设阈值;若否,则对所剔除的组内数据数量最多的分组进行数据拷贝及组细分处理,得到细分后的每个组内的数据数量,并以此更新组内数据数量;当组内数据数量不满足终止条件,返回判断组内数据数量是否满足预设条件。本发明实现数据处理量小,计算效率高。