《電子技術應用》
您所在的位置:首頁 > 可編程邏輯 > 設計應用 > 基于MapReduce和分布式緩存的KNN分類算法研究
基于MapReduce和分布式緩存的KNN分類算法研究
2015年微型機與應用第2期
涂敬偉1,2,皮建勇1,2
(1.貴州大學 計算機科學與信息學院,貴州 貴陽 550025; 2.貴州大學 云計算與物聯網研究中心,貴州 貴陽 550025)
摘要: 隨著大數據時代的到來,K最近鄰(KNN)算法較高的計算復雜度的弊端日益凸顯。在深入研究了KNN算法的基礎上,結合MapReduce編程模型,利用其開源實現Hadoop,提出了一種基于MapReduce和分布式緩存機制的KNN并行化方案。該方案只需要通過Mapper階段就能完成分類任務,減少了TaskTracker與JobTracker之間的通信開銷,同時也避免了Mapper的中間結果在集群任務節點之間的通信開銷。通過在Hadoop集群上實驗,驗證了所提出的并行化KNN方案有著優良的加速比和擴展性。
Abstract:
Key words :

  摘  要: 隨著大數據時代的到來,K最近鄰(KNN)算法較高的計算復雜度的弊端日益凸顯。在深入研究了KNN算法的基礎上,結合MapReduce編程模型,利用其開源實現Hadoop,提出了一種基于MapReduce和分布式緩存機制的KNN并行化方案。該方案只需要通過Mapper階段就能完成分類任務,減少了TaskTracker與JobTracker之間的通信開銷,同時也避免了Mapper的中間結果在集群任務節點之間的通信開銷。通過在Hadoop集群上實驗,驗證了所提出的并行化KNN方案有著優良的加速比和擴展性。

  關鍵詞KNN分類算法;并行化;MapReduce編程模型;Hadoop;分布式緩存

0 引言

  在數據挖掘中,分類算法是基礎和核心的研究內容,如何實現對事物的自動歸檔和分類是其主要的研究內容。經典的分類算法主要有決策樹、貝葉斯分類器、最近鄰、SVM、神經網絡等。這些算法在電子商務、通信、互聯網、醫療以及科學研究等領域起到了非常重要的決策支撐作用。其中,K最近鄰(KNN)分類法是一種簡潔、易實現、分類準確率較高的算法,在文本分類、圖像及模式識別等方面有著廣泛的應用。但是,隨著大數據時代對分類任務要求的提高,傳統的KNN分類算法已經不能滿足人們的需求。

  針對KNN算法的時間復雜度高、運算速度慢等不足,眾多學者從不同的方向對算法進行了改進研究。比如參考文獻[1]中所提到KD樹,建立了一種對K維空間中的實例進行存儲以便對其進行快速檢索的數據結構,減少了計算距離的次數;參考文獻[2]中,通過建立低維的特征向量空間來降低計算開銷;參考文獻[3]則是通過減少訓練樣本來降低計算開銷。這些改進的算法或以犧牲算法的分類準確率為代價,或在降低樣本相似度計算代價的同時,引入了新的計算代價,同時也降低了模型易讀性。然而,Google分布式計算模型MapReduce的提出,為KNN處理大數據集提供了一種新的可能。Apache基金會的開源項目Hadoop的發布,使得這種可能成為了現實。

  本文簡單介紹了MapReduce編程模型,對傳統的KNN算法進行了簡單扼要的介紹和分析;提出并實現了基于MapReduce模型的并行化方案。通過實驗驗證了并行化KNN方法的高效性,并分析了其不足與以后的研究方向。

1 MapReduce編程模型

  簡單地說,MapReduce[4]編程模型采用了“分而治之”的思想,將一個大而復雜的作業分割成眾多小而簡單的獨立任務,然后將這些任務分發給集群中各節點獨立執行。

  在Map和Reduce中,數據通常以<key,value>鍵值對的形式存在。

  MapReduce編程模型的執行過程如圖1所示。具體流程大致可分為以下幾個部分:

  (1)用戶提交任務后,MapReduce首先將HDFS上的源數據塊邏輯上劃分為若干片。隨后,將切片信息傳送給JobTacker,并通過Fork創建主控進程(master)和工作進程(worker)。

  (2)由主控進程負責任務調度,根據數據本地化策略,為空閑的worker分配任務。

  (3)在Mapper階段,被分配到Map任務的worker讀取輸入數據的對應分片。Mapper與Split是一一對應的。Mapper任務首先通過相關的函數,以行為單位,將Split轉化為Map能夠處理的<key,value>鍵值對的形式傳遞給Map,Map產生的中間鍵值對緩存在內存之中。

  (4)當緩存溢出時,緩存的中間鍵值對根據用戶定義的Reducer的個數R,分成R個區,并寫入本地磁盤。分區一一對應于Reducer。Reducer會通過master獲得相對應的分區在本地磁盤上的位置信息。

  (5)Reducer階段,Reducer首先讀取與之相對應的分區數據,隨后根據鍵值對<key,value>的key值對其進行排序,將具有相同key值的排在一起。

  (6)Reduce函數遍歷排序后的中間鍵值對。對于每個唯一的鍵,根據用戶重寫的Reduce,處理與之相關聯的value值。Reduce的輸出結果以鍵值對的形式寫入到該分區的輸出文件中。

  (7)當所有的Map和Reduce任務都完成以后,master會喚醒用戶程序,用戶程序對MapReduce平臺的調用由此返回。

001.jpg

  由此可見,MapReduce為用戶提供了一個極其簡單的分布式編程模型。用戶只需關心與任務相關的Map和Reduce即可,其他的對用戶而言都是透明的。

2 KNN算法描述

  K近鄰法[5]是在1968年由COVER T和HART P提出的,它沒有顯式的學習過程。分類時,對新的實例,根據其K個最近鄰的訓練實例的類別,通過多數表決等方式進行預測。所以,實際上K近鄰法是利用訓練集對特征向量空間進行劃分,并作為其分類的“模型”[6]。具體算法描述如下:

  輸入數據:訓練數據集T={(x1,y1),(x2,y2),…,(xN,yN)}

  其中,xi∈XRn為實例的特征向量,yi∈{c1,c2,…cK}為實例的類別,i=1,2,…N;實例特征向量x。

  輸出:實例x所屬的類y

  (1)計算實例x與每個訓練實例的距離;

  (2)令K是最近鄰數目,根據計算的距離度量,在訓練集中找出與x最近鄰的K個點的集合Nk(x);

  (3)在Nk(x)中根據分類決策規則(如多數表決)決定x的類別y:

  30K`BB]SDD[O[%LZG1KY3I4.jpg

  i=1,2,…N;j=1,2,…K

  其中,I為指示函數,即當yi=cj時I為1,否則I為0。

  從算法描述可以看到,算法的原理和實現非常簡單。但是,由于每判定一個輸入實例都要遍歷一次所有的訓練樣本,并計算該輸入實例到所有訓練樣本的距離,因此,對于具有海量和高維的訓練數據集以及分類任務時,K近鄰法的計算開銷會以驚人的速度增加。總的分類任務所需時間將遠遠超出人們的預期,使得K近鄰法失去了用武之地。


3 并行化KNN的分析與實現

  3.1 并行化KNN分析

  單節點情況下,針對一個分類任務,訓練樣本和測試樣本的大小一般情況下是固定的。所有的工作量由一臺PC獨立承擔。在集群環境下,借鑒MapReduce“分而治之”的思想,將海量的數據集進行分割,上傳至Hadoop集群的分布式文件系統HDFS。然后將大的樣本相似性計算和分類決策規則分割到存有訓練樣本的節點上進行并行處理。這是并行化KNN算法的基本思想。

  一般情況下,MapReduce編程模型處理的是單一數據源的任務,比如WordCount任務。但是,KNN分類是有導師的學習,需要兩個數據源:訓練數據集和測試數據集,且要求在Map任務開始前,能夠讀取到這兩個數據集。為了解決雙數據源的問題,本文采用了Hadoop提供的分布式文件緩存拷貝機制[7],它能夠在任務運行過程中及時地將文件復制到任務節點以供使用。當集群PC的內存有限、文件無法整個放入到內存中時,使用分布式緩存機制進行復試是最佳的選擇。

002.jpg

  將測試文件散布到集群的各個節點中,將訓練數據作為邊數據分發給存有測試集的節點。在Mapper階段,雖然每個測試樣例仍要遍歷整個訓練數據集,但是,每個Mapper只需要完成1/n個測試集與整個訓練集的相似性計算,如圖2(b)所示。所以在Mapper階段,測試樣本即可獲得與訓練數據集全局的相似性。從而在本地就能夠得到測試樣例的K個最近鄰居,并根據投票選出測試樣例的類別。不需要經過Reducer階段、集群間的數據傳輸、與master進程之間的信息交互,進而節約任務運行的時間,提高了算法的效率。

  3.2 并行化KNN的實現

  根據上一小節的分析,只通過Mapper就能夠完成分類任務。首先,Mapper讀取到的分片數據由InputFormat對象,生成<key,value>鍵值對。其中,key為測試樣本在分片中的偏移量,value為每個樣本的內容,數據類型為Text。同時,在運行Map之前,將訓練數據上傳至HDFS或本地文件系統,借助分布式緩存機制,將訓練集分發給每一個slave節點,然后Mapper通過一個靜態的方法UseDistributedCache()實現對緩存數據的調用。之后,通過Map計算每一個測試樣本與每一個訓練樣本的距離,獲得每一個訓練樣本的類別標志;找出測試實例的K個最近鄰,根據投票得到測試實例的類別;最后將結果以<key,value>的形式輸出到指定的目錄。具體偽代碼如下:

  輸入:<key,value>

  輸出:<key,String>

  ClassMapper{

  使用UseDistributedCache(),獲得測試數據集Tests;

  創建KNNnode對象node,存儲訓練樣本與測試樣本的距離和訓練樣本的類別;

  Map(key,value){

  訓練樣本向量化,得到向量化的測試樣本test;

  遍歷本節點訓練樣本集Trains,得到測試樣本與每一個訓練樣本的距離distanc以及相應訓練樣例的類標示catalog,并賦值給node對象;

  通過PriorityQueue得到與測試樣距離最近的K個node對象的隊列pq;

  根據投票獲得測試樣本的類c;

  輸出結果output.collct(test,c);

  }

  }

4 實驗結果與分析

  4.1 實驗環境

  并行化KNN實驗是在Hadoop平臺下完成的。硬件設備為6臺X86架構的PC,主設備節點采用Intel志強四核處理器,內存為4 GB;從設備節點采用AMD四核處理器,主頻為2.7 GHz,內存為4 GB。

  4.2 實驗數據集

  實驗采用標準數據集CoverType,它通過地質變量來預測森林植被覆蓋類型,是54維的7分類數據集。共有58萬個樣本,選取其中的30萬個為訓練樣本,其余的28萬個為測試實例,數據集大小為70 MB。

  4.3 結果分析

  實驗首先對傳統的KNN算法和本文提出的并行化KNN的運行效率進行了驗證。另外,為了驗證采用分布式緩存機制帶來的性能提升,還實現了另一種基于MapReduce的并行化KNN方案[8],采用內存的機制傳遞邊數據。這種方案由于受到單節點PC內存的限制,不能通過內存來傳遞訓練數據,只能將測試數據作為邊數據,由內存傳遞給woker。因此,這種方法不僅需要經過Mapper階段,還需要經過Reducer階段。理論上,這種方案的效率要低于采用分布式緩存機制的并行化KNN。

  在分布式環境下,由于數據分布的不確定性,實驗結果具有一定的顛簸,以下實驗數據均為在多次實驗后所取得的合理值。

003.jpg

  圖3顯示了三種算法在處理相同任務時所需要的時間。從圖中可以看到,在單臺和雙臺PC的情況下,并行化KNN方案一(采用分布式緩存機制)和方案二(采用內存機制)并沒有表現出其高效性,反而因為需要啟動JVM以及信息交互的原因,運行時間比傳統KNN算法的時間更長。當集群的節點數大于3臺時,隨著節點數量的增加,并行化KNN的運行時間開始大幅度地減少,體現出并行化的KNN算法的高效性。

004.jpg

  圖4為方案一和方案二的加速比對比圖,從圖中可以看到,隨著節點數量的增加,方案二的加速比也迅速地增加,明顯優于方案一。

  通過實驗得出,基于分布式緩存機制的并行化KNN算法在運行效率和擴展性上均要優于基于內存的并行化KNN。

5 結論

  本文根據傳統KNN算法的特點,提出了一種基于Mapreduce和分布式緩存機制的并行化KNN算法的實現。減少了任務執行過程中集群之間的信息交互以及中間數據的傳輸時延,從而使得本文提出并實現的并行化KNN算法在效率上有了進一步的提高。但是本文提出的并行化方案只是對傳統KNN算法最基本的并行化的實現,效率提升受到KNN算法本身特性的約束。借鑒前人的研究成果,對算法本身的K近鄰查找策略進行研究,在此基礎上實現并行化,取得更理想的效果,將是接下來研究的主要工作和方向。

  參考文獻

  [1] SAMET H. The design and analysis of spatial data structures[M]. MA: Addison-Wesley, 1990.

  [2] FRANKLIN M, HALEVY A, MAIER D. A first tutorial on dataspaces[J]. Proceedings of the VLDB Endowment, 2008,1(2):1516-1517.

  [3] 劉莉,郭艷艷,吳揚揚.一種基于基本信息單元的索引[J].計算機工程與科學,2011(9):117-122.

  [4] DEAN J, GHENAWAT S. MapReduce: simplified data processing on large clusters[J]. Communications of the ADM-50th Anniversary Issue:1958-2008,2008,51(1):107-113.

  [5] COVER T, HART P. Nearest neighbor pattern classification[J]. IEEE Transactions on Information Theory,1967,13(1):21-27.

  [6] 李航.統計學習方法[M].北京:清華大學出版社,2012.

  [7] TOM W. Hadoop: the definitive guide(second editon)[M]. O′Reilly Media, Inc., 2011.

  [8] 閆永剛,馬廷淮,王建.KNN分類算法的MapReduce并行化實現[J].南京航空航天大學學報,2013,45(4):550-555.


此內容為AET網站原創,未經授權禁止轉載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
亚洲美女中出| 久久精品国产久精国产一老狼| 亚洲一区二区综合| 日韩亚洲在线| 99re6热在线精品视频播放速度| 亚洲国产精品久久久久秋霞不卡| 依依成人综合视频| 亚洲成色999久久网站| 一色屋精品亚洲香蕉网站| 国产亚洲毛片| 国内精品久久久久影院薰衣草| 国产日韩欧美精品综合| 国产目拍亚洲精品99久久精品| 国产精品三级视频| 国产精品日韩欧美一区二区三区 | 国产欧美一区二区精品性| 国产精品一区二区三区久久| 国产精品日本欧美一区二区三区| 国产精品网站在线播放| 国产欧美一区二区三区另类精品| 国产一区二区三区在线观看视频| 国语自产偷拍精品视频偷| 一区视频在线| 亚洲欧洲在线看| 一区二区三区视频在线播放| 亚洲一线二线三线久久久| 欧美亚洲三级| 91久久久精品| 中文国产亚洲喷潮| 先锋影音网一区二区| 久久国产视频网站| 久久综合伊人77777麻豆| 欧美高清免费| 国产精品99免费看| 国产日韩欧美夫妻视频在线观看| 黄色日韩精品| 亚洲美女电影在线| 亚洲伊人观看| 亚洲激情精品| 亚洲性感美女99在线| 久久精品成人欧美大片古装| 模特精品在线| 欧美日韩伊人| 国产专区综合网| 日韩亚洲精品电影| 欧美一级久久久| 亚洲毛片在线免费观看| 亚洲综合色网站| 久久婷婷一区| 欧美亚一区二区| 极品少妇一区二区三区精品视频| 99视频超级精品| 欧美一区二区三区在线看| 亚洲人成网站777色婷婷| 亚洲欧美国产精品专区久久| 麻豆久久精品| 国产精品区一区二区三| 在线观看成人av电影| 亚洲视频免费| 亚洲激情啪啪| 欧美在线视频全部完| 欧美成人免费一级人片100| 国产精品九九| 亚洲高清不卡av| 亚洲男人第一网站| 亚洲伦理久久| 久久久www成人免费毛片麻豆| 欧美日韩八区| 激情国产一区| 亚洲视频在线一区| 亚洲日韩欧美视频| 久久成人18免费观看| 欧美大片免费久久精品三p| 国产欧美精品日韩精品| 亚洲精品午夜| 亚洲电影在线看| 欧美一区二区免费观在线| 欧美日本中文字幕| 一区二区三区自拍| 亚洲一区二区三区免费视频| 99av国产精品欲麻豆| 久久嫩草精品久久久精品一| 国产精品美女久久| 亚洲精选在线观看| 亚洲国产精品成人一区二区| 午夜国产不卡在线观看视频| 欧美久久久久免费| 影音先锋亚洲一区| 欧美一区二区三区视频在线观看| 亚洲一区二区三区精品在线观看| 农村妇女精品| 激情五月***国产精品| 欧美一区二区三区四区在线观看| 午夜激情综合网| 国产精品成人av性教育| 日韩视频精品| 一区二区三区久久久| 男人的天堂成人在线| 黑丝一区二区三区| 欧美怡红院视频| 欧美一区二区三区精品电影| 欧美日韩精品系列| 亚洲久久一区| 一本色道久久综合精品竹菊| 欧美激情视频在线播放| 在线观看一区| 亚洲电影在线观看| 老司机精品视频网站| 国内综合精品午夜久久资源| 欧美一级专区| 久久福利精品| 国产欧美丝祙| 午夜在线精品偷拍| 久久国产精品毛片| 国产亚洲福利| 欧美在线观看视频在线| 欧美一区观看| 国产日韩欧美中文在线播放| 亚洲自拍电影| 久久成人精品无人区| 国产美女在线精品免费观看| 先锋影音久久| 久久精品夜夜夜夜久久| 国产一区二区在线观看免费播放 | 欧美一区二区三区婷婷月色| 欧美在线视频观看免费网站| 国产在线播放一区二区三区| 欧美在线免费播放| 久久躁狠狠躁夜夜爽| 在线精品高清中文字幕| 亚洲片在线观看| 欧美理论电影在线观看| 亚洲精选成人| 亚洲综合色噜噜狠狠| 国产欧美va欧美不卡在线| 亚洲欧美视频一区| 久久久综合网站| 亚洲三级毛片| 亚洲欧美资源在线| 黄色成人在线观看| 99re这里只有精品6| 欧美午夜无遮挡| 亚洲欧美视频一区二区三区| 久久免费国产精品1| 亚洲成人原创| 亚洲一区成人| 国产午夜亚洲精品不卡| 亚洲福利视频网| 欧美日韩不卡| 亚洲欧美一区二区精品久久久| 久久男女视频| 99这里只有久久精品视频| 性做久久久久久| 激情懂色av一区av二区av| 99视频在线观看一区三区| 国产精品va在线| 久久精品国产99国产精品澳门| 欧美久久久久久| 午夜精品久久久99热福利| 欧美成人国产| 亚洲女人天堂成人av在线| 免费成人网www| 亚洲一区二区精品在线观看| 久久久久久久久久码影片| 91久久国产综合久久91精品网站| 亚洲专区欧美专区| 激情视频一区二区| 亚洲免费在线看| 亚洲国产高清自拍| 欧美在线观看视频一区二区| 亚洲国产一区二区三区青草影视| 性色av一区二区怡红| 亚洲国产精品久久久久秋霞蜜臀| 午夜精品福利在线| 亚洲国产精品传媒在线观看 | 欧美精品999| 午夜一区不卡| 欧美深夜福利| 亚洲国产成人av| 国产精品影院在线观看| 亚洲精品欧美专区| 国产午夜亚洲精品羞羞网站| 中国av一区| 在线观看欧美| 欧美在线高清视频| 99www免费人成精品| 久久在线视频| 午夜亚洲性色福利视频| 欧美日韩伦理在线| 亚洲黄色免费网站| 国产日韩欧美成人| 亚洲午夜电影在线观看| 亚洲国产va精品久久久不卡综合| 久久精品一区二区三区不卡| av成人毛片| 欧美老女人xx| 亚洲欧洲另类国产综合| 国产一二三精品| 午夜精品一区二区三区电影天堂| 亚洲免费观看高清完整版在线观看熊 |