一种清洗数据的方法及装置
基本信息
申请号 | CN201510046610.X | 申请日 | - |
公开(公告)号 | CN105989019B | 公开(公告)日 | 2019-08-16 |
申请公布号 | CN105989019B | 申请公布日 | 2019-08-16 |
分类号 | G06F16/955(2019.01)I | 分类 | 计算;推算;计数; |
发明人 | 陈家耀; 李长刚; 冯是聪; 吴明辉 | 申请(专利权)人 | 北京秒针信息咨询有限公司 |
代理机构 | 北京安信方达知识产权代理有限公司 | 代理人 | 北京秒针信息咨询有限公司 |
地址 | 102218 北京市昌平区东小口镇中东路398号1号楼4层 | ||
法律状态 | - |
摘要
摘要 | 本发明提供了一种清洗数据的方法及装置,该方法包括:获取预先收集的用户上网行为数据,每条用户上网行为数据包括:用户的唯一标识、当前http请求的request_url字段以及当前http请求的referer字段,request_url字段和referer字段的内容均为URL;统计每个URL在用户上网行为数据的request_url字段中出现次数的第一数值,以及在referer字段中出现次数的第二数值,计算第二数值与第一数值的比值,得到第一比值;根据归属于同一用户的用户上网行为数据,建立该用户的行为树,行为树包括多个叶子节点,叶子节点对应于request_url字段的一个URL;判断各个叶子节点的URL对应的第一比值是否小于一预设阈值,在小于预设阈值时,删除该用户的request_url字段为该URL的用户上网行为数据。在本方法中,有效清除了无用数据。 |
