一种基于改进Apriori算法找出频繁项集的方法

基本信息

申请号 CN201911102820.0 申请日 -
公开(公告)号 CN110807053A 公开(公告)日 2020-02-18
申请公布号 CN110807053A 申请公布日 2020-02-18
分类号 G06F16/2458;G06F16/22 分类 计算;推算;计数;
发明人 徐媛 申请(专利权)人 深圳易嘉恩科技有限公司
代理机构 成都虹桥专利事务所(普通合伙) 代理人 深圳易嘉恩科技有限公司
地址 518057 广东省深圳市南山区粤海街道高新区南区科技南12路长虹科技大厦23楼01单元
法律状态 -

摘要

摘要 本发明涉及数据挖掘领域,公开了一种基于改进Apriori算法找出频繁项集的方法,用以解决Apriori算法多次扫描数据库导致I/O开销大、效率低、以及产生大量候选项集增加了复杂度。本发明仅扫描数据库一件,扫描之后将数据库映射成布尔矩阵,并对布尔矩阵中的行向量和列向量中1的个数分别计数,得到布尔矩阵的频度;通过删除布尔矩阵列向量频度小于最小支持度的列,得到各个频繁项集;通过同时删除布尔矩阵列向量频度小于最小支持度的列以及行向量频度小于频繁项集维数k的行,生成新的布尔矩阵,不断压缩布尔矩阵,直到下一个频繁项集为空。本发明适用于关联规则获取频繁项集。