《電子技術應用》
您所在的位置:首頁 > 嵌入式技術 > 設計應用 > 基于殘差統計的時間序列加性離群點檢測算法研究
基于殘差統計的時間序列加性離群點檢測算法研究
張 玲,劉 波
國家數字交換系統工程技術研究中心,北京100094
摘要: 針對時間序列,提出了一種基于殘差統計的加性離群點檢測算法,利用AR模型對時間序列進行前向與后向擬合;采用了數據相對變化率判別法減少離群點對擬合的影響;根據假設檢驗原理,以高斯分布統計檢驗對殘差進行統計分析并最終確定離群點。仿真結果表明,該方法對離群點檢測有較高的準確性。
中圖分類號: TP311.11
文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.2015.09.023

中文引用格式: 張玲,劉波. 基于殘差統計的時間序列加性離群點檢測算法研究[J].電子技術應用,2015,41(9):85-87,91.
英文引用格式: Zhang Ling,Liu Bo. Residuals statistics-based additive outlier detection algorithm for time series[J].Application of Electronic Technique,2015,41(9):85-87,91.
Residuals statistics-based additive outlier detection algorithm for time series
Zhang Ling,Liu Bo
China National Digital Switching System Engineering and Technological Research Center,Beijing 100094,China
Abstract: We propose a residuals statistics-based additive outlier detection algorithm for one-dimensional time series, The basic idea is using time series AR model for forward and backward fitting. In order to reduce the influence of outlier, we use data’s relative change rate to preliminary judge the outlier. According to hypothesis testing theory and Gauss distribution statistic testing, we find out the outliers. The simulation results show that the this method has good performance on outlier detection.
Key words : time series;outlier;AR model;Gauss distribution


0 引言
    在時間序列數據挖掘中,不可避免地存在一些遠離序列一般水平的極端大值和極端小值,或者與其他序列樣本點一般行為或特征不一致的點值,這些點被稱做離群點。離群點的產生可能是采樣中的誤差,也可能是被研究對象本身由于受各種偶然非正常的因素影響而引起的。一方面,離群點的存在會影響時間序列模式表示,可能使數據挖掘陷入混亂,導致在隨后的數據處理過程中產生偏差或誤導;另一方面,離群點可以提供一些潛在的重要信息。目前,時間序列離群點檢測作為對數據進行挖掘處理的第一步,已經成為該研究領域的重要方向之一,并廣泛應用于通信流量監測、工業故障診斷、金融貿易等方面。
    時間序列中的離群點有很多類型,按照出現的個數,可以分為孤立離群點和成片離群點,按照產生的影響可以分為加性離群點AO(Additive Outlier)、更新離群點IO(Innovational Outlier)、水平移位離群點LS(Level Shift Outlier)和暫時變更離群點TC(Temporary Change Outlier)[1]。本文主要對時間序列中的加性離群點檢測方法進行研究,并在此基礎上提出了一種基于殘差統計的檢測方法,仿真結果表明該方法在檢測加性離群點方面具有較好的性能。
1 離群點檢測方法研究
    針對無序的數據集,離群點檢測方法主要有基于統計的方法、基于距離的方法[4]、基于密度的方法[5]和基于偏離的方法。近年來,不少研究人員提出了專門針對時間序列的離群點檢驗算法,主要有統計診斷方法、貝葉斯方法、遺傳算法、人工神經網絡、小波檢測等。國內也有相關人員對此做了深入的研究[2-5]。文獻[6]提出了基于粗糙集理論的序列離群點檢測方法,它利用粗糙集理論中的知識熵和屬性重要性等概念來構建三種類型的序列,并通過分析序列中元素的變化情況來檢測離群點。文獻[7]通過建立多變量時間序列數據相似度矩陣,對相似度矩陣進行轉換以最大化數據之間的相關性,并采用隨機游走模型計算數據點之間的連接系數來檢測數據點上的異常。文獻[8]指出離群點與它所在時間段內的其他數據不具有相似性,從時序圖上看,離群點相對于它相鄰區域內的數據具有很強的跳躍性,進而提出基于數據相對變化率的時間序列離群點識別方法。
2 基于殘差統計的加性離群點檢測算法
2.1 問題提出

    對于時間序列,離群點可能會隱藏在時間序列的趨勢、季節或其他變化中,增加了檢測難度。以圖1所示的時間序列為例,兩個時間序列都處于上升趨勢,A點明顯偏離了整個趨勢,應判定為離群點;B點雖然與前向時刻點在幅度變化率上發生了較大變化,但符合后向時刻點的變化趨勢,是一個正常時間序列點,因此不應判定為離群點。

201509b-tx1t1.jpg

圖1  受加性離群點“干擾”的時間序列與正常時間序列

    本文以一維時間序列為研究對象,提出了一種基于殘差統計的加性離群點檢測算法,基本思想是利用p階AR模型對時間序列進行前向與后向擬合,得到每個時間點擬合殘差。采用了鄰域區間變化率判別法對離群點進行初判,初判的疑似離群點不參與擬合運算。最后根據高斯分布假設檢驗的方法對殘差進行統計分析并最終確定離群點。
    定義待檢測時間序列數據樣本為xt,t=1,2,3,4…M,xt∈R,并做如下假設:
    (1)離群點隨機分布;
    (2)正常數據的數量遠大于離群點數量。
2.2 算法描述
2.2.1 鄰域區間變化率

    定義1 鄰域區間變化率:時間序列各時刻點與相鄰前后時刻的幅度變化率。設時刻t的鄰域區間變化率為δt,則:
    δt=|(xt-xt-1)+(xt-xt+1)|
    對所有δt進行考慮,選定門限δ,δ值的計算可以采用平均法或加權計算等。若δt>δ,則將xt標志為LK點(疑似離群點),否則標志為uLK點(非疑似離群點)。
    離群點相對于它前后相鄰數據都會有較大變化,因此鄰域區間變化率要同時對前向時刻和后向時刻進行考慮。定義LK點和uLK點是為了在擬合過程中盡量減少離群點的影響,對疑似離群點不作擬合參考。
2.2.2 AR模型擬合與參數計算
    擬合常用的模型有AR模型、MA模型、ARIMA模型等。AR模型一般用于擬合平穩的時間序列,而時間序列從局部來看近似一個平穩的過程,并且AR模型結構相對簡單,擬合精度較高,因此本文選用p階自回歸AR模型。為了準確反應各檢測點的局部變化屬性,并減少離群點對參數估計的影響,本文在文獻[9]所采用的兩窗口模型基礎上,提出了改進的窗口計算模型,基本原理是:檢測窗口僅包含t時刻待檢測點,前向學習窗口和后向學習窗口位于檢測窗口鄰近兩側,寬度為N,并且N>p,根據前向和后向學習窗口中的數據分別對t時刻待檢測點進行前向和后向擬合,采用剪枝思想,若學習窗口中包含疑似離群點LK,則該點退出學習窗口不參與計算,其余時間軸上的uLK點向t時刻整體移位并填滿窗口。如圖2所示。

201509b-tx1t2.jpg

圖2  改進的窗口模型

K[%M%%%LUM]HI4JEPTUTXWY.png

2.2.3 高斯統計檢測
    基于假設檢驗理論,在一定的顯著性水平下,擬合殘差εt近似服從高斯分布,即ε~N(u,σ2)。并且在假設2前提下,高斯分布作為殘差統計模型對離群點判決同樣具有較高置信度。在此,選擇高斯分布做為統計模型,εt的概率密度為:
B[}C05N)K]M2BR%YK5ZZ%T5.png

3 仿真
    為了驗證本文所提算法的有效性,以局域網內某主機通信流量監測數據為對象進行測試。通信流量監測是網絡管理的重要內容,通過流量監測,可以全面透視網絡的流量控制,快速定位和發現網絡故障,并保障關鍵應用的穩定運行,減少泄密風險。一般情況下,主機通信流量的具體業務包括Web、Telnet、SNMP、請求應答數據包等,在仿真實驗中,通過隨機加入異常事件,比如網絡擁塞、數據分發等來模擬加性離群點。
    圖3所示為某日上午8:00-12:00的某主機通信流量監測數據,單位為KB/min,數據樣本200個,離群點5個。窗口寬度取15,模型階數取4,擬合殘差分布情況如圖4所示。由圖看出,擬合后,離群點的殘差值與正常的浮動范圍相比有較大偏移。

201509b-tx1t3.jpg

圖3  加入AO的通信流量監測數據

    為了驗證算法對離群點數量的魯棒性,在200個流量監測數據樣本點中分別隨機加入5、10、15、20個離群點,擬合計算的窗口寬度取15,模型階數取4,概率判決臨界值分別取0.95、0.95、0.9、0.9。在仿真測試中并未使用離群點數量先驗知識。在此定義兩個檢測指標:

201509b-tx1t4.jpg

圖4  擬合殘差

    檢出率:檢測出的真實離群點數量與實際離群點數量之比。
    誤檢率:檢測出的錯誤離群點數量與實際離群點數量之比。

)@OK9M_IDAFJTP@ZD$(~A5L.png

    檢測統計結果如表1所示。結果顯示,當實際離群點數量在樣本中的比重小于0.05時,算法能對離群點進行完全有效地檢測,當實際離群點數量在樣本中的比重大于0.1時,檢出率下降,誤檢率有所上升,但此時離群點的發生不再是小概率事件,根據加性離群點對時間序列產生的影響上看,它不符合加性離群點特征。因此,本文所提算法對檢測時間序列中的加性離群點有較好的性能,同時,在實際應用中證明該算法對其他類型離群點的檢測也有一定的魯棒性。
4 結論
    本文針對時間序列中的加性離群點檢測,提出了一種基于殘差統計的檢測算法。該算法利用AR模型計算每個樣本點擬合殘差,通過統計分析殘差的概率分布來判別離群點。通過對局域網某主機通信流量監測數據的仿真結果顯示,該算法在檢測加性離群點方面是有效的,結果有較高的置信度。此外,在對擬合殘差進行分析時,除了本文采用的統計模型方法外,還可以采用基于密度的聚類的方法。另外如何檢測時間序列中其他類型的離群點也是值得研究的內容。
參考文獻
[1] 胡云,王崇駿,謝俊元,等.社群演化的隱健遷移估計及演化離群點檢測[J].軟件學報,2013,24(11):2710-2720.
[2] Hu Tianming,Sung Sam Yuan.A trimmed mean approach to finding spatial outliers[J].Intelligent Data Analysis,2004,8(1):79-95.
[3] ALARCON-AQUINO V,BARRIA J A.Anomaly detection in communication networks using wavelets[J].Communications,IEEE,2001,148(6):355-362.
[4] 劉耀宗,張宏,孟錦,等.基于小波密度估計的數據流離群點檢測[J].計算機工程,2013,39(2):178-181.
[5] 江峰,杜軍威,葛艷,等.基于粗糙集理論的序列離群點檢測[J].電子學報,2011(2):345-350.
[6] 李權,周興社.一種新的多變量時間序列數據異常檢測方法[J].時間頻率學報,2011,34(2):154-158.
[7] 周勇.時間序列時序關聯規則挖掘研究[D].成都:西南財經大學,2008.
[8] 蘇衛星,朱云龍,胡琨元,等.基于模型的過程工業時間序列異常值檢測方法[J].儀器儀表學報,2012(9):2080-2087.
[9] 皇甫堪,陳建文,樓生強.現代數字信號處理[M].北京:電子工業出版社,2003.
[10] 薛安榮,鞠時光,何偉華,等.局部離群點挖掘算法研究[J].計算機學報,2007(8):1455-1463.

此內容為AET網站原創,未經授權禁止轉載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
欧美日韩视频一区二区| 国产亚洲精品久久久久婷婷瑜伽| 亚洲天堂av在线免费| 亚洲国产日韩一级| 欧美资源在线| 欧美亚洲视频在线看网址| 一区二区三区国产在线观看| 樱桃国产成人精品视频| 国产在线视频欧美| 国产一区二区三区在线播放免费观看| 国产精品系列在线| 国产精品丝袜91| 国产免费观看久久黄| 国产精品人人做人人爽| 国产精品久久久久久久久免费樱桃| 欧美日韩一区不卡| 国产精品v欧美精品∨日韩| 欧美人与性动交α欧美精品济南到| 欧美成人精品三级在线观看| 欧美成人午夜激情视频| 欧美黄色免费| 欧美日韩亚洲一区二区三区在线观看 | 久久久久久电影| 久久免费国产精品1| 久久免费视频在线| 麻豆亚洲精品| 欧美精品亚洲精品| 欧美视频一区二区三区…| 欧美日韩一区二区三区视频| 欧美日韩在线三区| 国产精品人人做人人爽| 国产欧美日韩一区二区三区| 国内免费精品永久在线视频| 影音先锋久久资源网| 亚洲国产日韩欧美在线99| 亚洲精品一区二| 正在播放亚洲| 欧美中文字幕不卡| 亚洲乱码国产乱码精品精天堂| 在线亚洲观看| 欧美一区二区成人6969| 久久午夜羞羞影院免费观看| 欧美成人中文字幕| 欧美午夜精品久久久| 国产欧美一区二区三区国产幕精品| 国产一区香蕉久久| 亚洲欧洲精品一区二区| 一本一本a久久| 午夜久久美女| 亚洲精品字幕| 欧美一级成年大片在线观看| 久久亚洲精选| 欧美日韩网址| 国产在线精品自拍| 亚洲卡通欧美制服中文| 亚洲欧美在线播放| 亚洲精品免费在线| 亚洲欧美一区二区激情| 看欧美日韩国产| 国产精品v欧美精品v日本精品动漫| 国产亚洲综合在线| 日韩午夜av在线| 久久成人精品| 亚洲天堂久久| 久久全球大尺度高清视频| 欧美视频二区36p| 在线播放一区| 亚洲综合精品自拍| 亚洲伦理一区| 久久精品视频99| 国产精品成人一区| 亚洲第一毛片| 亚洲欧美一区二区三区久久| 99国产精品| 久久琪琪电影院| 国产精品日本一区二区| 亚洲国产精品va在线观看黑人 | 99国产精品私拍| 亚洲国产成人久久| 香蕉久久久久久久av网站| 欧美岛国激情| 国产一区二区视频在线观看| 一本在线高清不卡dvd| 亚洲精品美女91| 久久久久女教师免费一区| 国产精品户外野外| 亚洲精选在线观看| 亚洲国内欧美| 久久精品主播| 国产嫩草一区二区三区在线观看| 日韩视频不卡| 亚洲精品久久久久久久久久久久久 | 亚洲国产精品久久久久| 欧美亚洲尤物久久| 亚洲欧美日韩国产| 欧美日韩午夜激情| 亚洲欧洲中文日韩久久av乱码| 久久国产精品第一页| 欧美一区国产一区| 国产精品www网站| 亚洲人久久久| 亚洲国内精品| 六月婷婷一区| 国产亚洲a∨片在线观看| 亚洲午夜av电影| 一区二区三区色| 欧美极品在线播放| 亚洲国产成人精品女人久久久| 久久精品国产久精国产思思| 久久国产精品网站| 国产精品网站视频| 亚洲一区日韩在线| 亚洲欧美激情四射在线日| 欧美日韩精品一区二区天天拍小说 | 久久裸体视频| 国产主播一区二区三区| 欧美在线播放| 久久久蜜桃一区二区人| 国产一区二区av| 欧美一区二区成人| 久久久国产午夜精品| 国产一区二区三区免费观看| 午夜精品剧场| 久久精品国产第一区二区三区最新章节 | 一卡二卡3卡四卡高清精品视频| 日韩视频在线免费观看| 欧美金8天国| 亚洲美女在线看| 亚洲午夜久久久久久久久电影院 | 欧美日韩一区在线| 99国产精品视频免费观看| 亚洲小少妇裸体bbw| 欧美色中文字幕| 亚洲午夜免费福利视频| 欧美一区二区三区四区在线观看地址| 国产精品嫩草99av在线| 午夜亚洲精品| 老司机精品视频一区二区三区| 在线免费精品视频| 亚洲乱码国产乱码精品精天堂 | 欧美午夜理伦三级在线观看| 亚洲图中文字幕| 欧美一站二站| 国内成+人亚洲+欧美+综合在线| 久久精品视频在线| 欧美高清视频一二三区| 亚洲美女av在线播放| 亚洲综合精品| 国模一区二区三区| 亚洲乱码国产乱码精品精| 欧美婷婷在线| 欧美一级片久久久久久久| 久久精品中文字幕一区| 亚洲国产第一| 亚洲专区在线视频| 国产日韩欧美91| 亚洲黄一区二区| 欧美午夜a级限制福利片| 亚洲欧美一区二区三区极速播放| 久久久亚洲人| 日韩视频一区二区| 欧美在线视频网站| 在线观看欧美黄色| 一区二区三区视频观看| 国产精品尤物| 亚洲区一区二区三区| 国产精品久久久久久超碰| 久久精品人人做人人爽电影蜜月| 欧美美女福利视频| 午夜久久福利| 欧美激情视频在线免费观看 欧美视频免费一 | 久久久亚洲欧洲日产国码αv | 中文国产成人精品| 久久久欧美精品| 日韩写真视频在线观看| 久久精品72免费观看| 亚洲精品一区二区在线| 久久精品中文字幕一区二区三区| 91久久精品视频| 久久精品91久久久久久再现| 91久久精品国产91性色tv| 欧美中文字幕第一页| 亚洲欧洲日韩在线| 久久国产福利国产秒拍| 亚洲麻豆视频| 噜噜噜91成人网| 亚洲伊人伊色伊影伊综合网| 欧美xx视频| 欧美亚洲综合网| 欧美色道久久88综合亚洲精品| 久久成人国产| 国产精品亚洲а∨天堂免在线| 亚洲三级视频在线观看| 国产欧美一区二区三区另类精品 | 亚洲午夜在线观看| 欧美高清自拍一区| 欧美在线免费视频| 国产精品久久久久久亚洲调教 | 亚洲视频一区二区免费在线观看| 伊人精品成人久久综合软件|