一种基于数据去重的分布式数据挖掘与统计方法

基本信息

申请号 CN201911106504.0 申请日 -
公开(公告)号 CN111061559A 公开(公告)日 2020-04-24
申请公布号 CN111061559A 申请公布日 2020-04-24
分类号 G06F9/50;H04L29/08 分类 计算;推算;计数;
发明人 邓金祥;王炜;代先勇;谷峰;曾海刚;佘朝裕;刘洋 申请(专利权)人 成都安思科技有限公司
代理机构 北京天奇智新知识产权代理有限公司 代理人 叶明博
地址 610041 四川省成都市高新区天府大道北段1700号7栋1单元21楼2121号
法律状态 -

摘要

摘要 本发明公开了一种基于数据去重的分布式数据挖掘与统计方法,分布式服务器集群遍历数据包所有数据,并根据用户配置的数据聚合挖掘条件,分布式服务器集群中各个服务器节点分别判断数据是否重复,若不重复则保留,否则删除重复多余的数据。本发明通过分布式处理原始数据,从而大大的降低数据包的数量级别,大大降低了用户配置复杂挖掘条件的难度,强化了数据挖掘的针对性,大幅提升了数据挖掘的效率。