一种基于数据去重的分布式数据挖掘与统计方法
基本信息
申请号 | CN201911106504.0 | 申请日 | - |
公开(公告)号 | CN111061559A | 公开(公告)日 | 2020-04-24 |
申请公布号 | CN111061559A | 申请公布日 | 2020-04-24 |
分类号 | G06F9/50;H04L29/08 | 分类 | 计算;推算;计数; |
发明人 | 邓金祥;王炜;代先勇;谷峰;曾海刚;佘朝裕;刘洋 | 申请(专利权)人 | 成都安思科技有限公司 |
代理机构 | 北京天奇智新知识产权代理有限公司 | 代理人 | 叶明博 |
地址 | 610041 四川省成都市高新区天府大道北段1700号7栋1单元21楼2121号 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种基于数据去重的分布式数据挖掘与统计方法,分布式服务器集群遍历数据包所有数据,并根据用户配置的数据聚合挖掘条件,分布式服务器集群中各个服务器节点分别判断数据是否重复,若不重复则保留,否则删除重复多余的数据。本发明通过分布式处理原始数据,从而大大的降低数据包的数量级别,大大降低了用户配置复杂挖掘条件的难度,强化了数据挖掘的针对性,大幅提升了数据挖掘的效率。 |
