-
公开(公告)号:CN109783464A
公开(公告)日:2019-05-21
申请号:CN201811570307.X
申请日:2018-12-21
Applicant: 昆明理工大学
IPC: G06F16/182 , G06F16/18
Abstract: 本发明涉及一种基于Spark平台的频繁项集挖掘方法,属于数据挖掘技术领域。本发明基于Spark大数据处理框架,提出了一种新颖的BitMapFIM-Miner算法,并行化处理数据集,且不需要对数据集进行多次扫描,基于分治的思想,对事务长度大于一定阈值的事务进行分割,然后使用位操作的方法分别计算生成频繁项集,最后将各部分得到的频繁项集进行汇总合并。使用位操作的方法加速了频繁项集的挖掘速度,大大提高了算法的执行效率;通过理论分析和实验验证发现对过长的事务进行分割,在保证结果准确的同时可以高效地得到频繁项集,为频繁项集挖掘方法提供了一种新的思路。
-
公开(公告)号:CN109783464B
公开(公告)日:2022-11-04
申请号:CN201811570307.X
申请日:2018-12-21
Applicant: 昆明理工大学
IPC: G06F16/182 , G06F16/18
Abstract: 本发明涉及一种基于Spark平台的频繁项集挖掘方法,属于数据挖掘技术领域。本发明基于Spark大数据处理框架,提出了一种新颖的BitMapFIM‑Miner算法,并行化处理数据集,且不需要对数据集进行多次扫描,基于分治的思想,对事务长度大于一定阈值的事务进行分割,然后使用位操作的方法分别计算生成频繁项集,最后将各部分得到的频繁项集进行汇总合并。使用位操作的方法加速了频繁项集的挖掘速度,大大提高了算法的执行效率;通过理论分析和实验验证发现对过长的事务进行分割,在保证结果准确的同时可以高效地得到频繁项集,为频繁项集挖掘方法提供了一种新的思路。
-