《電子技術應用》
您所在的位置:首頁 > 通信與網絡 > 設計應用 > 基于時間衰減和密度的任意簇數據流聚類
基于時間衰減和密度的任意簇數據流聚類
來源:微型機與應用2011年第6期
龔 云, 趙 鵬, 王守軍
(安徽大學 計算機科學與技術學院, 安徽 合肥 230039)
摘要: 數據挖掘的一個重要分支是數據流聚類技術。基于K均值算法的基礎提出了CluTA算法。該算法在處理用K均值方法分類得到的結果時考慮時間衰減因素和相似簇的合并,達到用戶對時間的要求并實現了任意形狀簇聚類。理論分析和實驗結果都表明算法具有可行性。
Abstract:
Key words :

摘  要: 數據挖掘的一個重要分支是數據流聚類技術。基于K均值算法的基礎提出了CluTA算法。該算法在處理用K均值方法分類得到的結果時考慮時間衰減因素和相似簇的合并,達到用戶對時間的要求并實現了任意形狀簇聚類。理論分析和實驗結果都表明算法具有可行性。
關鍵詞: 數據流;密度聚類均值關鍵點;時間衰減

    數據流是指連續的、潛在無限量的、快速變化的、隨時間而至的數據元素的流。由于數據采集的快捷化和自動化,數據庫技術和互聯網技術的飛速發展,日常生活已經與數據流息息相關,如網絡實時監控、電子商務、衛星遙感等。這些數據都具有流的特性。而傳統的數據挖掘方法需多遍掃描全部數據且數據必須以靜態形式存儲在磁盤空間里,因此用來專門處理數據流的數據處理模型和算法應運而生[1]。
    CluStream算法是經典數據流聚類和主要算法,該算法提供了一個解決數據流聚類問題的優秀雙層聚類方法,但由于它采用的是基于BIRCH算法的核心思想,所以僅限于得到球形聚簇結果[2]。K均值算法是基于劃分的聚類方法,采用分而治之的策略對數據分塊后再進行聚類,這樣保證算法在較小的內存空間范圍內獲取常數因子的近似結果[3]。該算法的缺點是K取值的不確定因素太多,影響了準確性且不能考慮被分析數據的時間相關性。
1 基于時間衰減和簇合并的聚類處理算法(CluTA)
    在分析某些類數據時往往更加注重其近期變化帶來的影響,時間越久遠被關注的程度就越低,如網絡入侵行為的分類和趨勢、股市不斷變化的大盤信息等。為提高聚類得到結果的精確性,在挖掘時需考慮時間衰減的因素。由于K均值算法聚類的結果都是球型簇,本文通過合并相近相似簇達到輸出任意形狀簇的聚類結果。
    本算法采用分層思想,第一層增加K均值算法得到中心點的信息,使每個中心點c中保留s(簇內所有的點到c的距離和)、d(簇內最遠點到c的距離)、n(簇內所有點的個數)、t(c的生成時刻)。第二層結合本算法給出的衰減函數和密度計算出關鍵點的權重;比較關鍵點的權重和距離,如果距離足夠近且權重比在允許范圍內則合并簇。重復循環直到沒有可合并的簇,輸出最終結果。
1.1 相關定義和性質
    假設數據以塊X1,X2,…,Xn,…的形式按序到達,每個塊內包含m個數據點xi(xi1,xi2,…,xim)且可以在內存中進行處理。每個數據點是一個d維向量。CluTA算法是以Kmeans為基礎初次聚類生成k個關鍵點,采用五元組的方式存儲關鍵點信息。
    定義1. 關鍵點
    采用Kmeans方法對在t時刻到達內存的數據塊Xt進行聚類得到k個關鍵點,關鍵點ri是五元組的形式,

    上述(1)表示兩簇的均值點距離小于或等于兩簇內最遠距離之和,相距足夠近則考慮合并簇。但也可能出現兩簇相距很近仍不符合合并要求的情況。如圖1所示,兩簇的距離足夠近,但二者密度相差較大就不應該再合并。因此加上條件(2),通過計算兩簇的權重比是否相差懸殊來決定是否可以合并。若上述限定條件都符合,則合并簇得到如圖2所示結果。


1.3 算法分析
    該算法改進K均值聚類算法結果信息,第一層運用K均值算法的計算復雜度為O(nkt),n為數據點數目,t為循環次數,通常有k<<n和t<<n。第二層將生成的k個聚簇進行合并,計算復雜度為O(k2),k為常數級關鍵點數目。在K均值的基礎上增加的內存空間也非常少,僅需保存k個關鍵點和一些中間變量。因此,該算法在時間和空間復雜度上都近似于K均值聚類算法,具有簡單、高效的特點。
2 實驗分析
    算法在VC 6.0環境下采用C編寫,實驗平臺為一臺CPU 2.8 GHz、內存1 GB、操作系統為Windows XP的PC機。采用了UCI的KDD CUP 1999網絡入侵檢測數據集。KDD CUP 1999數據集共23類,每一數據有42個屬性,去除一些非數值型數據的維數,選留其中的20維做為實驗數據。使用每類中的5 000條中的20個屬性,打開文件模擬數據流環境讀入數據,用Kmeans算法得出初始聚類關鍵點信息,再運用CluTA算法進行簇合并,最終與僅用Kmeans算法聚類的結果精確度比較,如圖3所示,判斷聚類質量的算法可參考文獻[5]。聚類質量為類內距離值加上類間密度值。類內距離是表示該類內部點的密疏程度,類間密度是衡量各個類的平均密度關系,如圖4所示,該值較小表明聚類簇集的類間區分度較好,因此二者總和越小,表示聚類質量越好。

    為解決使用價值隨時間衰減的一類流數據聚類問題和實現任意形狀簇的聚類,本文在基于傳統的K均值聚類算法基礎上,保留其直觀、高效的特點,提出了基于時間衰減的任意簇數據流聚類算法。即在K均值算法處理得到結果的基礎上再考慮用時間和密度、空間距離等因素合并簇。理論分析和實驗結果證明該算法相對于僅用K均值算法在處理對近期價值比較關心一類的數據時具有更精確的聚類結果。下一步的工作將著重于提高算法的效率和將其應用到更廣泛的生活實踐中。
參考文獻
[1] Han Jiawei. Micheline. Data Mining:Concepts and Techniques, Second Edition[M].China Machine Press,2008.
[2] AGGARWAL C C, et al. A framework for clustering evolving data streams.In:Proc.of the 29th VLDB Conf.,2003.
[3] GUHA S,MISHRA N,MOTWANI R. Clustering data streams[C].Proceedings of the Annual Symposium on Foundations of Computer Science.2000.
[4] 倪巍偉,陸介平,陳耿,等.基于k均值分區的流數據高效密度聚類算法[J].小型微型計算機系統,2007,28(1):83-87.
[5] HALKIDI M, VAZIRGIANNIS M. Clustering validity assessment;finding the optimal partitioning of adata set[C]. ICDM 2001:187-194.

此內容為AET網站原創,未經授權禁止轉載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
欧美成人免费全部观看天天性色| 欧美日韩亚洲一区二区| 日韩亚洲欧美在线观看| 久久av一区二区三区亚洲| 亚洲欧美综合另类中字| 亚洲视频欧洲视频| 99精品国产99久久久久久福利| 亚洲国产裸拍裸体视频在线观看乱了中文| 国产亚洲欧美另类中文 | 欧美经典一区二区| 欧美国产精品| 欧美另类69精品久久久久9999| 欧美精品久久久久a| 欧美精品18+| 欧美日韩日本网| 国产精品高潮久久| 国产精品免费一区豆花| 国产精品视频1区| 国产视频一区在线观看一区免费| 国产欧美一区二区三区视频| 国产欧美日韩亚洲| 国产一区二区三区在线观看免费视频 | 亚洲高清视频在线| 亚洲黄一区二区三区| 亚洲看片一区| 在线视频中文亚洲| 亚洲综合99| 欧美在线看片a免费观看| 亚洲国产精品悠悠久久琪琪| 亚洲国产欧美日韩精品| 亚洲精品久久久久中文字幕欢迎你 | 99在线精品免费视频九九视| 一区二区国产在线观看| 亚洲一级片在线看| 欧美在线一级视频| 亚洲欧洲精品一区二区三区不卡| 日韩视频免费观看高清完整版| 一区二区三区成人| 午夜精品一区二区三区在线视| 久久精品国产一区二区三| 久久一区二区三区av| 欧美高清自拍一区| 欧美视频中文字幕| 国产一区二区三区奇米久涩| 亚洲大胆av| 一级成人国产| 久久国产精品久久久久久电车| 亚洲精品影院在线观看| 亚洲自拍偷拍网址| 久久久噜噜噜| 欧美深夜影院| 国内成+人亚洲+欧美+综合在线| 最新日韩中文字幕| 亚洲一区欧美激情| 亚洲人在线视频| 亚洲欧美韩国| 老司机午夜免费精品视频| 欧美日韩伦理在线免费| 国产农村妇女毛片精品久久莱园子 | 一区二区高清| 久久精品人人做人人爽电影蜜月| 99re这里只有精品6| 久久激情五月婷婷| 欧美日本高清一区| 国内精品久久久| 一卡二卡3卡四卡高清精品视频| 欧美一区在线视频| 亚洲无玛一区| 乱中年女人伦av一区二区| 欧美午夜性色大片在线观看| 狠狠操狠狠色综合网| 在线亚洲激情| 亚洲精选视频免费看| 久久久精品999| 国产精品成人观看视频免费| 亚洲第一黄色| 欧美在线啊v一区| 亚洲免费综合| 欧美日本一道本在线视频| 国产亚洲精品aa午夜观看| 99国产精品视频免费观看一公开 | 国内成+人亚洲| 中国日韩欧美久久久久久久久| 亚洲电影毛片| 欧美一区二区网站| 欧美视频免费看| 亚洲国产午夜| 久久精品人人做人人爽电影蜜月| 亚洲欧美色婷婷| 欧美日韩国产精品专区| 一区在线免费观看| 欧美亚洲三区| 亚洲综合激情| 欧美日韩系列| 亚洲欧洲日产国码二区| 亚洲国产成人av| 久久精品五月| 国产区精品视频| 中文在线一区| 亚洲午夜精品网| 欧美精品一区二区久久婷婷| 在线免费精品视频| 久久本道综合色狠狠五月| 欧美一区二区久久久| 欧美午夜精品理论片a级大开眼界 欧美午夜精品理论片a级按摩 | 亚洲九九爱视频| 亚洲国产欧美日韩精品| 久久精品网址| 国产一区二区三区四区五区美女 | 久久激情视频久久| 国产精品视频yy9299一区| 9久re热视频在线精品| 日韩视频免费观看高清在线视频 | 久久综合久久综合久久| 国产亚洲福利一区| 校园春色综合网| 欧美一区二区视频97| 国产老女人精品毛片久久| 亚洲已满18点击进入久久| 亚洲欧美日韩精品一区二区 | 亚洲小视频在线观看| 亚洲一区欧美| 国产精品久久久久久久7电影 | 亚洲福利在线看| 91久久久亚洲精品| 欧美成年人在线观看| 亚洲国产导航| 亚洲精选国产| 欧美日韩精品在线视频| 99re6热在线精品视频播放速度| 在线一区二区三区四区五区| 欧美视频精品在线| 亚洲影院色无极综合| 欧美在线亚洲综合一区| 国产一区二区三区在线观看视频| 久久本道综合色狠狠五月| 久热国产精品| 亚洲精品在线一区二区| 亚洲午夜高清视频| 国产精品一区二区男女羞羞无遮挡 | 欧美波霸影院| 亚洲人成网在线播放| 一区二区三区四区五区视频| 欧美少妇一区| 午夜亚洲伦理| 久久影院亚洲| 亚洲精品视频在线观看网站 | 欧美激情按摩在线| 一区二区毛片| 欧美一区二区三区播放老司机| 国产一区欧美| 亚洲精品一品区二品区三品区| 欧美日韩一二三区| 亚洲专区一区二区三区| 久久久噜噜噜| 亚洲久久在线| 欧美在线三级| 亚洲国产综合91精品麻豆| 亚洲一区亚洲二区| 好吊色欧美一区二区三区四区| 亚洲精品日韩欧美| 欧美色区777第一页| 欧美一区久久| 欧美日本亚洲视频| 先锋影音国产精品| 欧美大片在线观看| 亚洲一卡二卡三卡四卡五卡| 狂野欧美一区| 亚洲视频香蕉人妖| 美女视频黄a大片欧美| 在线亚洲美日韩| 久久一区二区精品| 在线视频一区二区| 开心色5月久久精品| 宅男噜噜噜66一区二区| 久久噜噜噜精品国产亚洲综合| 亚洲每日在线| 久久久美女艺术照精彩视频福利播放| 亚洲国产毛片完整版| 欧美一区二区三区四区在线观看地址 | 亚洲第一在线| 欧美一区二区三区免费大片| 亚洲国产精彩中文乱码av在线播放| 亚洲欧美国产一区二区三区| 亚洲大胆人体在线| 欧美一区二区三区精品| 亚洲精品免费一区二区三区| 久久精品一区| 在线视频欧美日韩| 欧美国产日本高清在线| 香蕉成人伊视频在线观看| 欧美啪啪一区| 亚洲国产一区在线观看| 国产精品女人网站| 一本高清dvd不卡在线观看| 狠狠色综合日日| 欧美一区二区日韩一区二区| 日韩亚洲欧美成人| 欧美freesex8一10精品| 欧美怡红院视频|