数据流中带权值频繁项挖掘方法和系统
基本信息
申请号 | CN200910092805.2 | 申请日 | - |
公开(公告)号 | CN101650730A | 公开(公告)日 | 2010-02-17 |
申请公布号 | CN101650730A | 申请公布日 | 2010-02-17 |
分类号 | G06F17/30(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 张玉;张永铮 | 申请(专利权)人 | 山东福生佳信科技股份有限公司 |
代理机构 | 北京泛华伟业知识产权代理有限公司 | 代理人 | 中国科学院计算技术研究所;山东福生佳信科技股份有限公司 |
地址 | 100190北京市海淀区中关村科学院南路6号 | ||
法律状态 | - |
摘要
摘要 | 本发明提供一种数据流中带权值频繁项挖掘方法,数据流中的带权值频繁项动态存储在部分排序的流概要数据结构中;部分排序的流概要数据结构包括多个按开始值顺序排列的桶,桶还包括有由条目通过双向循环链表所构成的组;桶中的条目包括数据项名称、计数器值以及计数器的最大可能误差,条目的计数器值大于所在桶的开始值而小于或等于所在桶的开始值与桶范围系数之和;包括:从所接收到的数据流中依次取出数据项;根据所取出的数据项的名称和权值在部分排序的流概要数据结构中找出合适的桶以及合适的条目,并为所述条目赋值;根据用户的命令按序遍历所述的部分排序的流概要数据结构,所得到的计数器值大于一阈值的条目为所要挖掘的带权值频繁项。 |
