-
公开(公告)号:CN106815302A
公开(公告)日:2017-06-09
申请号:CN201611144649.6
申请日:2016-12-13
Applicant: 华中科技大学
CPC classification number: G06F9/5083 , G06F16/2465 , G06F2209/5019
Abstract: 本发明实现了一种频繁项集挖掘方法,属于数据挖掘技术领域。本发明方法首先在MapReduce上得到每项出现次数,经过排序以及阈值筛选,剔除不符合的项,得到F‑List,然后划分F‑List得到G‑List,根据G‑List的划分,数据传给Mapper,并经过Mapper处理,将数据传给Reducer,在Reducer上进行MapReduce的挖掘。挖掘首先需要得到每个Reducer上的PPCTree,得到PPCTree后进而得到N‑List,以及各个Reducer上对应项的G‑Subsume,最后根据N‑List和G‑Subsume递归得到最终的频繁项集。本发明依据负载预测合理划分数据,保证负载均衡;通过优化递归挖掘流程,大大减少密集型数据挖掘时间。