基于RoaringBitmap的用户数据统计方法

基本信息

申请号 CN202011401560.X 申请日 -
公开(公告)号 CN112434085A 公开(公告)日 2021-03-02
申请公布号 CN112434085A 申请公布日 2021-03-02
分类号 G06F16/2458(2019.01)I;G06F16/22(2019.01)I 分类 计算;推算;计数;
发明人 李兴平;林允鹏 申请(专利权)人 四三九九网络股份有限公司
代理机构 北京市盛峰律师事务所 代理人 席小东
地址 361009福建省厦门市思明区软件园二期望海路2号
法律状态 -

摘要

摘要 本发明提供一种基于Roaring Bitmap的用户数据统计方法,包括:将用户唯一标识依次通过信息摘要算法MD5及MurmurHash3算法,哈希成int64位哈希值h;将哈希值h通过取余法进行降位,得到新的用户唯一标识u;将新的用户唯一标识u转化为二进制数;建立数据存储结构;基于数据存储结构,统计用户是否为新用户。本发明使用高性能Roaring Bitmap作为基础数据结构对Bitmap进行压缩,此外引入哈希算法并进行降位运算,使其支持字符型用户唯一标识,同时在计算性能与精度中找到平衡;在用户数据统计上具有空间占用小,计算速度快等特点,同时在数据持续增长的情况下依然能保持出色的性能。