《電子技術應用》
您所在的位置:首頁 > 通信與網絡 > 設計應用 > 基于MapReduce的增量數據挖掘研究
基于MapReduce的增量數據挖掘研究
來源:微型機與應用2014年第1期
廖寶魁1,孫雋楓2
(1.貴州大學 計算機科學與信息學院,貴州 貴陽 550025; 2.貴州大學 管理學院,貴州 貴陽
摘要: 頻繁項集挖掘是數據挖掘過程中的重要部分,傳統數據挖掘算法中常用Apriori算法和FP增長算法來挖掘頻繁項集。在實際應用中,傳統算法往往不能用于頻繁更新的數據庫,采用IMBT數據結構能從不斷更新的數據庫中挖掘頻繁項集,但是這將導致存儲空間不足和運行效率低下的問題。基于MapReduce的增量數據挖掘能夠有效解決這些問題,通過對比基于MapReduce的增量數據挖掘和傳統增量數據挖掘的運行時間可以證明,基于Mapeduce的增量數據挖掘更高效。
Abstract:
Key words :

摘  要: 頻繁項集挖掘是數據挖掘過程中的重要部分,傳統數據挖掘算法中常用Apriori算法和FP增長算法來挖掘頻繁項集。在實際應用中,傳統算法往往不能用于頻繁更新的數據庫,采用IMBT數據結構能從不斷更新的數據庫中挖掘頻繁項集,但是這將導致存儲空間不足和運行效率低下的問題。基于MapReduce增量數據挖掘能夠有效解決這些問題,通過對比基于MapReduce的增量數據挖掘和傳統增量數據挖掘的運行時間可以證明,基于Mapeduce的增量數據挖掘更高效。
關鍵詞: 增量數據挖掘;MapReduce;增量挖掘二叉樹;頻繁項集

 目前,數據挖掘[1]在計算機領域正飛速發展。數據庫系統領域的發展主要在數據收集、數據庫創建、數據管理、數據分析、數據挖掘、數據倉庫等方面。在數據挖掘中,挖掘關聯規則是相當重要的部分。該部分的主要研究集中在挖掘算法上。國內外對頻繁項集挖掘算法一直都有著很深的研究,例如:Apriori算法[1],FP增長算法[1-2]。
 但是,現實應用中新的事務會不斷地錄入數據庫,這使得許多挖掘算法不能處理動態的數據。數據庫隨機變動,這些算法不能有效應對數據的增添、刪除等操作,這使得增量數據挖掘[3-5]變得尤為重要。
1 增量數據挖掘的必要性
 在現實應用中,事務數據庫常處于動態更新狀態,這需要對傳統關聯規則挖掘算法做進一步改進,因此出現了一些新的關聯規則。一些傳統的批量挖掘算法通過反復掃描數據庫來發現是否有新的事物添加到數據庫中,但是這樣做需要大量的運算時間。
 實際應用中,由于新的事務不停地添加到數據庫中,原先產生的頻繁項集將被淘汰掉,基于新的數據庫會產生新的頻繁項集。增量挖掘算法能有效避免這樣的問題。增量數據挖掘以之前挖掘的結果為基礎,利用新增的事務來進行增量挖掘。
2 增量挖掘發展現狀
2.1 基于IMBT的增量挖掘

 為了能更好地利用現成的挖掘結果,采用了一種新的樹形結構來代替FP樹。該結構叫做增量挖掘二叉樹(IMBT)[2],在事務添加到數據庫中或從數據庫中刪除后,它能給出每個項集的支持度計數。與之前的在數據庫更新后通過反復掃描數據庫得出的頻繁項集支持度計數相比,該算法一次只處理一條事務并且記錄數據集結構中可能的頻繁項集,節約了大量的時間。

2.4 在數據庫更新后挖掘頻繁項集
 給定一個項集X,如果X在事務數據庫中出現的頻率大于或等于預設的最小支持度,X則稱為頻繁項集。如果項集X不是頻繁項集,它的左半部分的子項集也不是頻繁的,該算法會停止處理左半部分的子項集,這樣可以提高挖掘效率。構建好IMBT樹后,需要遍歷該樹來找出滿足最小支持度閾值的頻繁項集,挖掘結果被保存在一張表中以便將來使用。由于IMBT樹的構建不需要支持度閾值,所以可以在數據庫更新后以任何支持度閾值挖掘頻繁項集。
 該方法采用IMBT樹結構,重用從源數據庫中挖掘出來的結果挖掘新增事務,使得性能有大幅度提升。但是該方法仍面臨內存空間不夠的問題。隨著程序運行,IMBT樹將會逐漸擴大,這使得內存空間容納不下IMBT樹,運行效率也將大大降低。采用并行機制來改進現有的串行挖掘算法將在性能上有很大地飛躍。
3 問題解決方案
3.1 并行算法

 在并行計算[6-7]中,數據會被分發到不同的計算機節點中去,并行過程中每臺計算機對不同的數據塊執行相同的任務。
 由于真實環境中的數據庫通常非常大,把整個數據庫保存在每個節點計算機上將造成存儲空間過多的浪費。將數據庫拆分則能成功地將子數據庫分發在不同的計算機節點上。由于每臺計算機都保存子數據庫,節約了大量的存儲空間。
3.2 并行算法的優勢
 隨著數據的增加,當數據量超過了GB的時候,串行數據挖掘算法將很難在短時間內給出挖掘結果。而且單臺電腦沒有足夠的內存來容納全部的數據。在并行條件下,由于聚集了多臺計算機的存儲空間和處理能力,因此并行算法能很好地解決運行效率低下,存儲空間不足的問題。
3.3 MapReduce工作流程
 要順利實現并行算法需用MapReduce框架[8]。MapReduce是由谷歌開發的標準軟件架構,主要用于處理大數據操作任務。該架構由Map和Reduce組成。
 當有數據輸入時,輸入數據被分割成塊發送到各個節點計算機上,被分配了任務的節點計算機讀取并處理收到的輸入數據塊。Map函數處理完數據后輸出中間數據:鍵值對,輸出的中間鍵值對暫時緩沖到內存,這些內存中的的鍵值對將會寫入到本地硬盤,然后將中間鍵值對在本地硬盤的位置信息發送給主節點計算機,主節點計算機負責向執行Reduce函數的計算機發送位置信息,這些計算機通過位置信息遠程從運行Map函數的計算機硬盤上讀取中間鍵值對,并將中間鍵值對按鍵分類,擁有相同鍵的值都分在一起,由Reduce函數處理后輸出最終結果[8]。圖4給出了其工作流程圖。

4 提出系統
4.1 系統思路

 針對上述內存空間和運行效率的問題,提出了一種并行構建IMBT樹挖掘頻繁項集的方法。該方法主要完成兩項工作:并行構建IMBT樹及頻繁項集計數。由于單臺計算機內存和處理器能力有限,該算法不適用于單臺電腦上運行。為了讓算法的性能更高,就需要盡量減少計算機之間數據的傳輸并且避免過多的處理過程。
4.2 系統設計
 首先將輸入文件分為若干獨立文件塊。然后并行處理輸入的每一個文件塊。由于該方法需要用到基本數據結構IMBT進行增量挖掘,不需要為IMBT樹定義最小支持度閾值。當本地IMBT樹在各個節點計算機中生成后,每個項集將會在獨立的節點計算機中進行支持度計數。然后將生成的局部頻繁項集結合起來,在全局數據庫中生成一個全局的頻繁項集。最后,由用戶定義一個最小支持度閾值,并將其用于全局頻繁項集從而計算出真正的頻繁項集。MapReduce框架的工作模式能很好地實現該方法,該方法的設計流程圖如圖5所示。

5 性能仿真與結果分析
 為了對比基于MapReduce的增量數據挖掘和傳統增量數據挖掘的運行效率,實驗選取一個擁有85 643條事務的數據庫,數據庫中每條事務的項目數平均為7個,項目總共有1 300種,實驗用計算機總共3臺,配置均為雙核CPU AMD Athlon(tm)64 X2 Dual Core Processor 4000+,內存為2 GB,安裝Ubuntu10.10與Window XP雙系統,其中傳統IMBT挖掘算法在單臺電腦上用XP系統運行,基于MapReduce的IMBT在3臺電腦上用Ubuntu10.10運行,其中1臺計算機配置為namenode,另外2臺配置為datanode。由于是實驗,所以沒有配置second namenode。
 在數據挖掘進行之前,數據庫中預存有30 000條事務,在基于MapReduce的IMBT算法中,這30 000條事務被平均分配到3臺電腦上,實驗開始后不斷地向數據庫錄入事務數,兩種算法均取支持度閾值為800。圖6給出在不斷向數據庫中添加事務時,兩種算法的耗時對比。
 從圖6中可以看出,基于MapReduce的IMBT算法的運行效率幾乎比傳統IMBT算法快一倍,圖中的運行時間并非完全線性增長,這是由于數據庫中每條事務的項目種類和項目數量不一致導致的。理論上基于MapReduce的IMBT算法采用2臺計算機同時進行挖掘任務,效率應該快一倍,圖中結果并未達到一倍是因為整個MapReduce過程需要頻繁傳遞信息,namenode需要一定的響應時間,導致實際效率與理論效率存在一定誤差。但基于MapReduce的增量數據挖掘算法在運行效率上比傳統數據挖掘算法仍然有了質的提升。

 傳統數據挖掘技術:Apriori、FP樹等算法,雖然都能有效地找出頻繁項集,但不能適用于真實環境下動態的數據。所以出現了增量數據挖掘,本文給出了一種基于IMBT結構的增量數據挖掘算法,該算法能夠在新事務添加到數據庫或從數據庫中刪除后有效地列舉出每一個項集的支持度計數。由于在樹的構建過程中不需要預設最小支持度閾值,該算法允許用戶以任何支持度閾值挖掘頻繁項集。結合之前從數據庫中挖掘出來的結果,該算法能夠挖掘更新后的數據庫,效率上有很大的提升。但是IMBT樹在單臺計算機中運行時,該算法面臨存儲空間不足的問題,隨著算法的進行,IMBT樹逐漸擴展,會造成內存溢出,效率降低。
為此提出了一種新的方法,該方法采用MapReduce框架,將數據庫分為若干子數據庫然后發向多個節點計算機,由于計算機集群聚集了多臺計算機的存儲能力和計算能力,在存儲空間上可以動態的增加,并且能夠并行處理數據,從而解決了運行效率和存儲空間的問題,因此該方法比傳統的非并行增量算法更高效。
參考文獻
[1] 范明,孟小峰.數據挖掘概念與技術[M].北京:機械工業出版社,2012.
[2] 蔣翠清,胡俊妍.基于FP-tree的最大頻繁項集挖掘算法[J].合肥工業大學學報(自然科學版),2010,33(9):387-1391.
[3] HONG T P, WANG C Y, TAO Y H. A new incremental data mining algorithm using pre-large itemsets[J]. Intelligent Data Analysis, 2001, 5(2): 111-129.
[4] HONG T P, LIN C W, WU Y L. Incrementally fast updated frequent pattern trees[J]. Expert Systems With Applications,2008,34(4):2424- 2435.
[5] YANG C H, YANG D L. IMBT-a binary Tree for Efficient Support Counting of Incremental Data Mining[J]. 2009 International Conference on Computational Science & Engineering, 2009,1(1):324-329.
[6] 劉鵬.云計算[M].北京:電子工業出版社,2011.
[7] 高嵐嵐.云計算與網格計算的深入比較研究[J].海峽科學,2009(2):56-57.
[8] LAM C, 韓冀中.Hadoop實戰[M].北京:人民郵電出版社,2012.

此內容為AET網站原創,未經授權禁止轉載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
中国女人久久久| 久久精品国产亚洲一区二区三区| 欧美gay视频激情| 欧美在线视频不卡| 亚洲一区二区三| 一本久道久久综合婷婷鲸鱼| 在线观看视频一区二区| 国产一区深夜福利| 国产日韩精品一区观看 | 欧美日韩精品伦理作品在线免费观看| 久久精品视频在线播放| 亚洲免费影视第一页| 亚洲免费黄色| 亚洲人成在线观看网站高清| 久久精品国产99国产精品| 亚洲欧美日韩精品综合在线观看| 一区二区国产精品| 日韩亚洲精品在线| 日韩亚洲在线| 亚洲精品乱码久久久久久日本蜜臀| 伊人久久大香线蕉综合热线| 国产一区二区日韩精品欧美精品| 国产精品网站在线播放| 国产精品久久久久久久7电影 | 激情综合在线| 黄色亚洲在线| 激情久久中文字幕| 尹人成人综合网| 在线观看日韩av电影| 激情综合中文娱乐网| 一区在线视频| 在线播放日韩专区| 亚洲国产另类精品专区| 亚洲黄色免费| 亚洲美女黄色| 在线亚洲伦理| 亚洲欧美卡通另类91av| 欧美一区二区三区免费观看视频| 欧美一级二区| 亚洲高清网站| 亚洲精品日韩久久| 中文在线不卡| 午夜在线播放视频欧美| 久久精品国产2020观看福利| 久久久欧美一区二区| 欧美a级片网| 欧美日韩一级视频| 国产区二精品视| 黄色亚洲精品| 日韩午夜中文字幕| 亚洲免费在线电影| 香蕉久久夜色精品| 亚洲国产经典视频| 亚洲精选在线观看| 亚洲曰本av电影| 久久国产日韩欧美| 亚洲免费影视| 久久久国产精品一区二区三区| 久久午夜视频| 欧美激情2020午夜免费观看| 欧美偷拍另类| 国产日韩亚洲欧美精品| 亚洲第一网站| 在线一区视频| 亚洲国产高清一区二区三区| a4yy欧美一区二区三区| 欧美一区二区三区免费观看| 免费不卡视频| 国产精品久久久久久超碰| 狠狠色综合网| 99成人在线| 欧美在线一二三区| 日韩午夜视频在线观看| 午夜精品视频网站| 美腿丝袜亚洲色图| 国产精品成人va在线观看| 亚洲在线视频| 国产精品自拍三区| **性色生活片久久毛片| 正在播放亚洲| 亚洲国产精品va| 亚洲欧美一级二级三级| 欧美成人资源网| 国产精品午夜春色av| 亚洲激精日韩激精欧美精品| 亚洲综合欧美日韩| 99国产一区| 久久久国际精品| 国产精品av久久久久久麻豆网| 黄色国产精品一区二区三区| 一区二区成人精品 | 免费精品视频| 国产精品亚洲综合久久| 91久久精品美女高潮| 性欧美暴力猛交69hd| 亚洲五月六月| 欧美成ee人免费视频| 国产日韩精品一区二区三区在线 | 一本色道久久综合精品竹菊 | 夜夜嗨网站十八久久 | 亚洲成色最大综合在线| 亚洲欧美日韩一区二区三区在线| 欧美激情精品| 在线精品一区二区| 欧美一区二区三区喷汁尤物| 亚洲香蕉伊综合在人在线视看| 免费一区视频| 国产一区二区三区自拍 | 一区二区黄色| 欧美二区在线看| 精品不卡一区二区三区| 欧美一区二区三区在线播放| 午夜精品在线视频| 国产精品a久久久久久| 日韩视频在线免费| 一区二区三区www| 欧美黄色影院| 亚洲国产精品ⅴa在线观看 | 精品99一区二区| 欧美一区二区日韩| 先锋亚洲精品| 国产精品国产精品| 在线观看中文字幕亚洲| 久久激情视频| 亚洲欧洲av一区二区| 欧美日韩一区二区视频在线观看| 亚洲欧洲日产国码二区| 亚洲国产成人久久综合| 欧美在线观看视频一区二区三区| 欧美日韩国产天堂| 在线成人性视频| 亚洲精品在线电影| 宅男噜噜噜66一区二区66| 蜜桃久久av| 国内综合精品午夜久久资源| 亚洲一区精彩视频| 亚洲午夜免费福利视频| 久久综合狠狠综合久久综青草| 国产精品尤物| 亚洲一区二区三区午夜| 亚洲精选在线| 欧美国产一区二区三区激情无套| 尤物视频一区二区| 亚洲国产aⅴ天堂久久| 免费日韩av| 亚洲黄色在线视频| 亚洲精品你懂的| 欧美日本一道本| 亚洲美女视频在线观看| 亚洲精品小视频| 欧美成人精品高清在线播放| 国产欧美日本一区二区三区| 久久精品国产在热久久| 久久精品天堂| 国内伊人久久久久久网站视频| 欧美一区久久| 久久久久久穴| 亚洲国产日韩美| 亚洲另类视频| 欧美久久成人| 日韩特黄影片| 亚洲免费电影在线观看| 欧美午夜欧美| 亚洲一区二区在线看| 欧美一级在线播放| 国产亚洲女人久久久久毛片| 亚洲主播在线| 免费成人毛片| 亚洲欧洲视频在线| 欧美国产三级| 国产精品yjizz| 欧美亚洲三级| 老司机成人在线视频| 亚洲高清不卡av| 亚洲激情视频| 国产精品成人在线观看| 亚洲一区二区三区精品视频 | 欧美一级在线播放| 国产日本欧美一区二区三区在线| 亚洲女优在线| 欧美激情亚洲一区| 亚洲免费观看在线观看| 亚洲欧美日韩国产精品| 国产日韩欧美成人| 久久www成人_看片免费不卡| 欧美精品一区二区三区很污很色的| 亚洲精品国产日韩| 亚洲欧美日韩在线不卡| 国产视频在线观看一区二区| 午夜精品久久久久久久白皮肤 | 欧美三级午夜理伦三级中视频| 在线亚洲自拍| 欧美一区综合| 国产欧美精品在线观看| 亚洲精品在线视频观看| 欧美香蕉视频| 欧美中文在线观看国产| 欧美国产精品久久| 亚洲永久免费av| 久久一区二区三区国产精品|