一种清洗数据的方法及装置

基本信息

申请号 CN201510046610.X 申请日 -
公开(公告)号 CN105989019B 公开(公告)日 2019-08-16
申请公布号 CN105989019B 申请公布日 2019-08-16
分类号 G06F16/955(2019.01)I 分类 计算;推算;计数;
发明人 陈家耀; 李长刚; 冯是聪; 吴明辉 申请(专利权)人 北京秒针信息咨询有限公司
代理机构 北京安信方达知识产权代理有限公司 代理人 北京秒针信息咨询有限公司
地址 102218 北京市昌平区东小口镇中东路398号1号楼4层
法律状态 -

摘要

摘要 本发明提供了一种清洗数据的方法及装置,该方法包括:获取预先收集的用户上网行为数据,每条用户上网行为数据包括:用户的唯一标识、当前http请求的request_url字段以及当前http请求的referer字段,request_url字段和referer字段的内容均为URL;统计每个URL在用户上网行为数据的request_url字段中出现次数的第一数值,以及在referer字段中出现次数的第二数值,计算第二数值与第一数值的比值,得到第一比值;根据归属于同一用户的用户上网行为数据,建立该用户的行为树,行为树包括多个叶子节点,叶子节点对应于request_url字段的一个URL;判断各个叶子节点的URL对应的第一比值是否小于一预设阈值,在小于预设阈值时,删除该用户的request_url字段为该URL的用户上网行为数据。在本方法中,有效清除了无用数据。