《電子技術應用》
您所在的位置:首頁 > 通信與網絡 > 設計應用 > 基于時間衰減和密度的任意簇數據流聚類
基于時間衰減和密度的任意簇數據流聚類
來源:微型機與應用2011年第6期
龔 云, 趙 鵬, 王守軍
(安徽大學 計算機科學與技術學院, 安徽 合肥 230039)
摘要: 數據挖掘的一個重要分支是數據流聚類技術?;贙均值算法的基礎提出了CluTA算法。該算法在處理用K均值方法分類得到的結果時考慮時間衰減因素和相似簇的合并,達到用戶對時間的要求并實現了任意形狀簇聚類。理論分析和實驗結果都表明算法具有可行性。
Abstract:
Key words :

摘  要: 數據挖掘的一個重要分支是數據流聚類技術?;贙均值算法的基礎提出了CluTA算法。該算法在處理用K均值方法分類得到的結果時考慮時間衰減因素和相似簇的合并,達到用戶對時間的要求并實現了任意形狀簇聚類。理論分析和實驗結果都表明算法具有可行性。
關鍵詞: 數據流;密度聚類;均值關鍵點;時間衰減

    數據流是指連續的、潛在無限量的、快速變化的、隨時間而至的數據元素的流。由于數據采集的快捷化和自動化,數據庫技術和互聯網技術的飛速發展,日常生活已經與數據流息息相關,如網絡實時監控、電子商務、衛星遙感等。這些數據都具有流的特性。而傳統的數據挖掘方法需多遍掃描全部數據且數據必須以靜態形式存儲在磁盤空間里,因此用來專門處理數據流的數據處理模型和算法應運而生[1]。
    CluStream算法是經典數據流聚類和主要算法,該算法提供了一個解決數據流聚類問題的優秀雙層聚類方法,但由于它采用的是基于BIRCH算法的核心思想,所以僅限于得到球形聚簇結果[2]。K均值算法是基于劃分的聚類方法,采用分而治之的策略對數據分塊后再進行聚類,這樣保證算法在較小的內存空間范圍內獲取常數因子的近似結果[3]。該算法的缺點是K取值的不確定因素太多,影響了準確性且不能考慮被分析數據的時間相關性。
1 基于時間衰減和簇合并的聚類處理算法(CluTA)
    在分析某些類數據時往往更加注重其近期變化帶來的影響,時間越久遠被關注的程度就越低,如網絡入侵行為的分類和趨勢、股市不斷變化的大盤信息等。為提高聚類得到結果的精確性,在挖掘時需考慮時間衰減的因素。由于K均值算法聚類的結果都是球型簇,本文通過合并相近相似簇達到輸出任意形狀簇的聚類結果。
    本算法采用分層思想,第一層增加K均值算法得到中心點的信息,使每個中心點c中保留s(簇內所有的點到c的距離和)、d(簇內最遠點到c的距離)、n(簇內所有點的個數)、t(c的生成時刻)。第二層結合本算法給出的衰減函數和密度計算出關鍵點的權重;比較關鍵點的權重和距離,如果距離足夠近且權重比在允許范圍內則合并簇。重復循環直到沒有可合并的簇,輸出最終結果。
1.1 相關定義和性質
    假設數據以塊X1,X2,…,Xn,…的形式按序到達,每個塊內包含m個數據點xi(xi1,xi2,…,xim)且可以在內存中進行處理。每個數據點是一個d維向量。CluTA算法是以Kmeans為基礎初次聚類生成k個關鍵點,采用五元組的方式存儲關鍵點信息。
    定義1. 關鍵點
    采用Kmeans方法對在t時刻到達內存的數據塊Xt進行聚類得到k個關鍵點,關鍵點ri是五元組的形式,

    上述(1)表示兩簇的均值點距離小于或等于兩簇內最遠距離之和,相距足夠近則考慮合并簇。但也可能出現兩簇相距很近仍不符合合并要求的情況。如圖1所示,兩簇的距離足夠近,但二者密度相差較大就不應該再合并。因此加上條件(2),通過計算兩簇的權重比是否相差懸殊來決定是否可以合并。若上述限定條件都符合,則合并簇得到如圖2所示結果。


1.3 算法分析
    該算法改進K均值聚類算法結果信息,第一層運用K均值算法的計算復雜度為O(nkt),n為數據點數目,t為循環次數,通常有k<<n和t<<n。第二層將生成的k個聚簇進行合并,計算復雜度為O(k2),k為常數級關鍵點數目。在K均值的基礎上增加的內存空間也非常少,僅需保存k個關鍵點和一些中間變量。因此,該算法在時間和空間復雜度上都近似于K均值聚類算法,具有簡單、高效的特點。
2 實驗分析
    算法在VC 6.0環境下采用C編寫,實驗平臺為一臺CPU 2.8 GHz、內存1 GB、操作系統為Windows XP的PC機。采用了UCI的KDD CUP 1999網絡入侵檢測數據集。KDD CUP 1999數據集共23類,每一數據有42個屬性,去除一些非數值型數據的維數,選留其中的20維做為實驗數據。使用每類中的5 000條中的20個屬性,打開文件模擬數據流環境讀入數據,用Kmeans算法得出初始聚類關鍵點信息,再運用CluTA算法進行簇合并,最終與僅用Kmeans算法聚類的結果精確度比較,如圖3所示,判斷聚類質量的算法可參考文獻[5]。聚類質量為類內距離值加上類間密度值。類內距離是表示該類內部點的密疏程度,類間密度是衡量各個類的平均密度關系,如圖4所示,該值較小表明聚類簇集的類間區分度較好,因此二者總和越小,表示聚類質量越好。

    為解決使用價值隨時間衰減的一類流數據聚類問題和實現任意形狀簇的聚類,本文在基于傳統的K均值聚類算法基礎上,保留其直觀、高效的特點,提出了基于時間衰減的任意簇數據流聚類算法。即在K均值算法處理得到結果的基礎上再考慮用時間和密度、空間距離等因素合并簇。理論分析和實驗結果證明該算法相對于僅用K均值算法在處理對近期價值比較關心一類的數據時具有更精確的聚類結果。下一步的工作將著重于提高算法的效率和將其應用到更廣泛的生活實踐中。
參考文獻
[1] Han Jiawei. Micheline. Data Mining:Concepts and Techniques, Second Edition[M].China Machine Press,2008.
[2] AGGARWAL C C, et al. A framework for clustering evolving data streams.In:Proc.of the 29th VLDB Conf.,2003.
[3] GUHA S,MISHRA N,MOTWANI R. Clustering data streams[C].Proceedings of the Annual Symposium on Foundations of Computer Science.2000.
[4] 倪巍偉,陸介平,陳耿,等.基于k均值分區的流數據高效密度聚類算法[J].小型微型計算機系統,2007,28(1):83-87.
[5] HALKIDI M, VAZIRGIANNIS M. Clustering validity assessment;finding the optimal partitioning of adata set[C]. ICDM 2001:187-194.

此內容為AET網站原創,未經授權禁止轉載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
亚洲深夜福利在线| 亚洲视频精品| 亚洲黄色免费电影| 国产精品视频久久一区| 欧美国产精品中文字幕| 欧美一区二区三区在| 日韩一区二区免费高清| 久久国产欧美日韩精品| 中文在线一区| 亚洲欧洲精品一区二区精品久久久| 国产精品亚洲产品| 欧美午夜片在线观看| 欧美chengren| 久久久欧美精品sm网站| 亚洲欧美久久久| 一区二区激情视频| 91久久国产精品91久久性色| 香蕉av777xxx色综合一区| 中文国产成人精品久久一| 亚洲欧洲一区二区天堂久久| 在线播放豆国产99亚洲| 国产一区美女| 国产深夜精品福利| 国产精品免费视频xxxx| 欧美日韩色一区| 欧美日韩不卡在线| 欧美精品免费视频| 欧美不卡视频一区发布| 久久久视频精品| 久久国产精品久久久久久久久久| 香蕉av777xxx色综合一区| 亚洲一区一卡| 亚洲欧美美女| 亚洲一区在线免费| 亚洲一线二线三线久久久| 亚洲视频第一页| 一区二区三区成人| 一区二区欧美在线观看| 99re热这里只有精品免费视频| 亚洲区在线播放| 亚洲黄色影院| 亚洲精品老司机| 亚洲美女在线视频| 一本久久知道综合久久| 一本一本a久久| 亚洲一级黄色| 亚洲欧美三级在线| 久久国产精品久久久久久| 久久久久久穴| 欧美a级一区| 欧美精品一区二区三区蜜桃| 欧美精品日韩一本| 欧美日韩视频在线一区二区| 欧美日韩在线播放一区二区| 国产精品国产三级国产普通话蜜臀| 国产精品久久久久免费a∨| 国产精品美女久久久久aⅴ国产馆| 国产精品日韩欧美一区| 国产欧美日韩综合精品二区| 国产日韩欧美在线| 精品动漫3d一区二区三区免费 | 欧美日韩免费高清一区色橹橹| 欧美激情中文字幕一区二区 | 欧美三级特黄| 国产精品资源| 一区二区三区在线不卡| 亚洲激情一区二区| 中文日韩在线视频| 欧美在线免费视屏| 亚洲精品国产精品国自产观看浪潮 | 欧美午夜久久久| 国产亚洲免费的视频看| 在线日本成人| 亚洲视频播放| 久久精品国产精品亚洲综合 | 久久se精品一区二区| 久久精品一区二区三区四区| 久久视频一区| 欧美精品福利在线| 国产精品日本精品| 亚洲缚视频在线观看| 亚洲色图自拍| 久久精品一区二区国产| 亚洲视频中文| 久久免费视频在线观看| 欧美日韩国产综合久久| 国产区亚洲区欧美区| 亚洲人成高清| 亚洲欧美日韩综合国产aⅴ| 亚洲欧洲日本一区二区三区| 亚洲欧美成人精品| 蜜臀91精品一区二区三区| 国产精品s色| 欧美日韩在线看| 国产一区二区久久| 日韩午夜激情| 亚洲国产日韩一级| 亚洲尤物在线视频观看| 鲁大师成人一区二区三区| 国产精品一区二区你懂的| 亚洲国产一区二区a毛片| 亚洲欧美清纯在线制服| 日韩视频免费在线观看| 久久免费精品日本久久中文字幕| 欧美日韩精品综合在线| 合欧美一区二区三区| 亚洲综合国产| 国产精品99久久久久久宅男| 狼狼综合久久久久综合网| 国产精品系列在线播放| 日韩视频在线免费| 亚洲高清不卡| 久久国产精品久久国产精品| 国产精品久久久久高潮| 日韩图片一区| 91久久精品国产| 久久精品免费看| 国产精品日韩精品| 一本在线高清不卡dvd| 亚洲理伦在线| 久色婷婷小香蕉久久| 国产日韩欧美高清| 99re66热这里只有精品3直播| 亚洲国产综合视频在线观看| 欧美中文日韩| 国产精品美女一区二区在线观看| 亚洲免费高清| 99re6这里只有精品视频在线观看| 噜噜噜噜噜久久久久久91 | 一本色道久久精品| 99热在线精品观看| 麻豆免费精品视频| 黄色小说综合网站| 欧美综合激情网| 久久精品国产精品亚洲综合| 国产精品香蕉在线观看| 亚洲小视频在线| 亚洲香蕉成视频在线观看| 欧美日本中文| 亚洲免费观看高清完整版在线观看熊| 亚洲精品乱码久久久久久蜜桃麻豆| 久久免费高清| 国产亚洲一区二区三区在线播放| 亚洲免费视频成人| 午夜伦欧美伦电影理论片| 国产精品久久久久一区| 亚洲一级网站| 午夜精品久久久久久久男人的天堂| 欧美午夜精品久久久| 在线视频亚洲| 亚洲欧美中文日韩v在线观看| 国产精品美女视频网站| 亚洲综合精品自拍| 欧美在线观看日本一区| 国产视频丨精品|在线观看| 欧美伊人影院| 免费成年人欧美视频| 亚洲国产天堂久久综合网| 99国产精品国产精品毛片| 欧美日韩国产区一| 一本色道久久综合狠狠躁篇怎么玩 | 亚洲欧美日韩成人| 欧美中文字幕第一页| 好吊色欧美一区二区三区视频| 亚洲国产精品福利| 欧美高清视频www夜色资源网| 亚洲国产精品一区二区尤物区| 亚洲精品资源| 欧美视频在线观看| 亚洲欧美日韩一区| 久久一区视频| 亚洲日本无吗高清不卡| 亚洲一区日本| 国产欧美一区二区三区国产幕精品 | 国产在线乱码一区二区三区| 亚洲黄色毛片| 欧美三级黄美女| 亚洲欧美国产精品桃花| 久久久免费精品| 亚洲国产欧美在线人成| 亚洲私人影院在线观看| 国产精品一区一区三区| 亚洲大胆美女视频| 欧美人与性动交a欧美精品| 亚洲伊人色欲综合网| 久久在线视频| 亚洲美女视频| 久久av一区| 亚洲国产岛国毛片在线| 亚洲一区二区三区三| 国产一区二区三区日韩| 99精品欧美一区二区三区| 国产精品一区在线观看你懂的| 亚洲二区免费| 欧美伦理91i| 香蕉久久国产| 欧美巨乳在线| 亚洲在线视频网站| 欧美好吊妞视频| 亚洲自拍啪啪|