基于RoaringBitmap的用户数据统计方法
基本信息
申请号 | CN202011401560.X | 申请日 | - |
公开(公告)号 | CN112434085A | 公开(公告)日 | 2021-03-02 |
申请公布号 | CN112434085A | 申请公布日 | 2021-03-02 |
分类号 | G06F16/2458(2019.01)I;G06F16/22(2019.01)I | 分类 | 计算;推算;计数; |
发明人 | 李兴平;林允鹏 | 申请(专利权)人 | 四三九九网络股份有限公司 |
代理机构 | 北京市盛峰律师事务所 | 代理人 | 席小东 |
地址 | 361009福建省厦门市思明区软件园二期望海路2号 | ||
法律状态 | - |
摘要
摘要 | 本发明提供一种基于Roaring Bitmap的用户数据统计方法,包括:将用户唯一标识依次通过信息摘要算法MD5及MurmurHash3算法,哈希成int64位哈希值h;将哈希值h通过取余法进行降位,得到新的用户唯一标识u;将新的用户唯一标识u转化为二进制数;建立数据存储结构;基于数据存储结构,统计用户是否为新用户。本发明使用高性能Roaring Bitmap作为基础数据结构对Bitmap进行压缩,此外引入哈希算法并进行降位运算,使其支持字符型用户唯一标识,同时在计算性能与精度中找到平衡;在用户数据统计上具有空间占用小,计算速度快等特点,同时在数据持续增长的情况下依然能保持出色的性能。 |
