《電子技術應用》
您所在的位置:首頁 > 嵌入式技術 > 設計應用 > 基于殘差統計的時間序列加性離群點檢測算法研究
基于殘差統計的時間序列加性離群點檢測算法研究
張 玲,劉 波
國家數字交換系統工程技術研究中心,北京100094
摘要: 針對時間序列,提出了一種基于殘差統計的加性離群點檢測算法,利用AR模型對時間序列進行前向與后向擬合;采用了數據相對變化率判別法減少離群點對擬合的影響;根據假設檢驗原理,以高斯分布統計檢驗對殘差進行統計分析并最終確定離群點。仿真結果表明,該方法對離群點檢測有較高的準確性。
中圖分類號: TP311.11
文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.2015.09.023

中文引用格式: 張玲,劉波. 基于殘差統計的時間序列加性離群點檢測算法研究[J].電子技術應用,2015,41(9):85-87,91.
英文引用格式: Zhang Ling,Liu Bo. Residuals statistics-based additive outlier detection algorithm for time series[J].Application of Electronic Technique,2015,41(9):85-87,91.
Residuals statistics-based additive outlier detection algorithm for time series
Zhang Ling,Liu Bo
China National Digital Switching System Engineering and Technological Research Center,Beijing 100094,China
Abstract: We propose a residuals statistics-based additive outlier detection algorithm for one-dimensional time series, The basic idea is using time series AR model for forward and backward fitting. In order to reduce the influence of outlier, we use data’s relative change rate to preliminary judge the outlier. According to hypothesis testing theory and Gauss distribution statistic testing, we find out the outliers. The simulation results show that the this method has good performance on outlier detection.
Key words : time series;outlier;AR model;Gauss distribution


0 引言
    在時間序列數據挖掘中,不可避免地存在一些遠離序列一般水平的極端大值和極端小值,或者與其他序列樣本點一般行為或特征不一致的點值,這些點被稱做離群點。離群點的產生可能是采樣中的誤差,也可能是被研究對象本身由于受各種偶然非正常的因素影響而引起的。一方面,離群點的存在會影響時間序列模式表示,可能使數據挖掘陷入混亂,導致在隨后的數據處理過程中產生偏差或誤導;另一方面,離群點可以提供一些潛在的重要信息。目前,時間序列離群點檢測作為對數據進行挖掘處理的第一步,已經成為該研究領域的重要方向之一,并廣泛應用于通信流量監測、工業故障診斷、金融貿易等方面。
    時間序列中的離群點有很多類型,按照出現的個數,可以分為孤立離群點和成片離群點,按照產生的影響可以分為加性離群點AO(Additive Outlier)、更新離群點IO(Innovational Outlier)、水平移位離群點LS(Level Shift Outlier)和暫時變更離群點TC(Temporary Change Outlier)[1]。本文主要對時間序列中的加性離群點檢測方法進行研究,并在此基礎上提出了一種基于殘差統計的檢測方法,仿真結果表明該方法在檢測加性離群點方面具有較好的性能。
1 離群點檢測方法研究
    針對無序的數據集,離群點檢測方法主要有基于統計的方法、基于距離的方法[4]、基于密度的方法[5]和基于偏離的方法。近年來,不少研究人員提出了專門針對時間序列的離群點檢驗算法,主要有統計診斷方法、貝葉斯方法、遺傳算法、人工神經網絡、小波檢測等。國內也有相關人員對此做了深入的研究[2-5]。文獻[6]提出了基于粗糙集理論的序列離群點檢測方法,它利用粗糙集理論中的知識熵和屬性重要性等概念來構建三種類型的序列,并通過分析序列中元素的變化情況來檢測離群點。文獻[7]通過建立多變量時間序列數據相似度矩陣,對相似度矩陣進行轉換以最大化數據之間的相關性,并采用隨機游走模型計算數據點之間的連接系數來檢測數據點上的異常。文獻[8]指出離群點與它所在時間段內的其他數據不具有相似性,從時序圖上看,離群點相對于它相鄰區域內的數據具有很強的跳躍性,進而提出基于數據相對變化率的時間序列離群點識別方法。
2 基于殘差統計的加性離群點檢測算法
2.1 問題提出

    對于時間序列,離群點可能會隱藏在時間序列的趨勢、季節或其他變化中,增加了檢測難度。以圖1所示的時間序列為例,兩個時間序列都處于上升趨勢,A點明顯偏離了整個趨勢,應判定為離群點;B點雖然與前向時刻點在幅度變化率上發生了較大變化,但符合后向時刻點的變化趨勢,是一個正常時間序列點,因此不應判定為離群點。

201509b-tx1t1.jpg

圖1  受加性離群點“干擾”的時間序列與正常時間序列

    本文以一維時間序列為研究對象,提出了一種基于殘差統計的加性離群點檢測算法,基本思想是利用p階AR模型對時間序列進行前向與后向擬合,得到每個時間點擬合殘差。采用了鄰域區間變化率判別法對離群點進行初判,初判的疑似離群點不參與擬合運算。最后根據高斯分布假設檢驗的方法對殘差進行統計分析并最終確定離群點。
    定義待檢測時間序列數據樣本為xt,t=1,2,3,4…M,xt∈R,并做如下假設:
    (1)離群點隨機分布;
    (2)正常數據的數量遠大于離群點數量。
2.2 算法描述
2.2.1 鄰域區間變化率

    定義1 鄰域區間變化率:時間序列各時刻點與相鄰前后時刻的幅度變化率。設時刻t的鄰域區間變化率為δt,則:
    δt=|(xt-xt-1)+(xt-xt+1)|
    對所有δt進行考慮,選定門限δ,δ值的計算可以采用平均法或加權計算等。若δt>δ,則將xt標志為LK點(疑似離群點),否則標志為uLK點(非疑似離群點)。
    離群點相對于它前后相鄰數據都會有較大變化,因此鄰域區間變化率要同時對前向時刻和后向時刻進行考慮。定義LK點和uLK點是為了在擬合過程中盡量減少離群點的影響,對疑似離群點不作擬合參考。
2.2.2 AR模型擬合與參數計算
    擬合常用的模型有AR模型、MA模型、ARIMA模型等。AR模型一般用于擬合平穩的時間序列,而時間序列從局部來看近似一個平穩的過程,并且AR模型結構相對簡單,擬合精度較高,因此本文選用p階自回歸AR模型。為了準確反應各檢測點的局部變化屬性,并減少離群點對參數估計的影響,本文在文獻[9]所采用的兩窗口模型基礎上,提出了改進的窗口計算模型,基本原理是:檢測窗口僅包含t時刻待檢測點,前向學習窗口和后向學習窗口位于檢測窗口鄰近兩側,寬度為N,并且N>p,根據前向和后向學習窗口中的數據分別對t時刻待檢測點進行前向和后向擬合,采用剪枝思想,若學習窗口中包含疑似離群點LK,則該點退出學習窗口不參與計算,其余時間軸上的uLK點向t時刻整體移位并填滿窗口。如圖2所示。

201509b-tx1t2.jpg

圖2  改進的窗口模型

K[%M%%%LUM]HI4JEPTUTXWY.png

2.2.3 高斯統計檢測
    基于假設檢驗理論,在一定的顯著性水平下,擬合殘差εt近似服從高斯分布,即ε~N(u,σ2)。并且在假設2前提下,高斯分布作為殘差統計模型對離群點判決同樣具有較高置信度。在此,選擇高斯分布做為統計模型,εt的概率密度為:
B[}C05N)K]M2BR%YK5ZZ%T5.png

3 仿真
    為了驗證本文所提算法的有效性,以局域網內某主機通信流量監測數據為對象進行測試。通信流量監測是網絡管理的重要內容,通過流量監測,可以全面透視網絡的流量控制,快速定位和發現網絡故障,并保障關鍵應用的穩定運行,減少泄密風險。一般情況下,主機通信流量的具體業務包括Web、Telnet、SNMP、請求應答數據包等,在仿真實驗中,通過隨機加入異常事件,比如網絡擁塞、數據分發等來模擬加性離群點。
    圖3所示為某日上午8:00-12:00的某主機通信流量監測數據,單位為KB/min,數據樣本200個,離群點5個。窗口寬度取15,模型階數取4,擬合殘差分布情況如圖4所示。由圖看出,擬合后,離群點的殘差值與正常的浮動范圍相比有較大偏移。

201509b-tx1t3.jpg

圖3  加入AO的通信流量監測數據

    為了驗證算法對離群點數量的魯棒性,在200個流量監測數據樣本點中分別隨機加入5、10、15、20個離群點,擬合計算的窗口寬度取15,模型階數取4,概率判決臨界值分別取0.95、0.95、0.9、0.9。在仿真測試中并未使用離群點數量先驗知識。在此定義兩個檢測指標:

201509b-tx1t4.jpg

圖4  擬合殘差

    檢出率:檢測出的真實離群點數量與實際離群點數量之比。
    誤檢率:檢測出的錯誤離群點數量與實際離群點數量之比。

)@OK9M_IDAFJTP@ZD$(~A5L.png

    檢測統計結果如表1所示。結果顯示,當實際離群點數量在樣本中的比重小于0.05時,算法能對離群點進行完全有效地檢測,當實際離群點數量在樣本中的比重大于0.1時,檢出率下降,誤檢率有所上升,但此時離群點的發生不再是小概率事件,根據加性離群點對時間序列產生的影響上看,它不符合加性離群點特征。因此,本文所提算法對檢測時間序列中的加性離群點有較好的性能,同時,在實際應用中證明該算法對其他類型離群點的檢測也有一定的魯棒性。
4 結論
    本文針對時間序列中的加性離群點檢測,提出了一種基于殘差統計的檢測算法。該算法利用AR模型計算每個樣本點擬合殘差,通過統計分析殘差的概率分布來判別離群點。通過對局域網某主機通信流量監測數據的仿真結果顯示,該算法在檢測加性離群點方面是有效的,結果有較高的置信度。此外,在對擬合殘差進行分析時,除了本文采用的統計模型方法外,還可以采用基于密度的聚類的方法。另外如何檢測時間序列中其他類型的離群點也是值得研究的內容。
參考文獻
[1] 胡云,王崇駿,謝俊元,等.社群演化的隱健遷移估計及演化離群點檢測[J].軟件學報,2013,24(11):2710-2720.
[2] Hu Tianming,Sung Sam Yuan.A trimmed mean approach to finding spatial outliers[J].Intelligent Data Analysis,2004,8(1):79-95.
[3] ALARCON-AQUINO V,BARRIA J A.Anomaly detection in communication networks using wavelets[J].Communications,IEEE,2001,148(6):355-362.
[4] 劉耀宗,張宏,孟錦,等.基于小波密度估計的數據流離群點檢測[J].計算機工程,2013,39(2):178-181.
[5] 江峰,杜軍威,葛艷,等.基于粗糙集理論的序列離群點檢測[J].電子學報,2011(2):345-350.
[6] 李權,周興社.一種新的多變量時間序列數據異常檢測方法[J].時間頻率學報,2011,34(2):154-158.
[7] 周勇.時間序列時序關聯規則挖掘研究[D].成都:西南財經大學,2008.
[8] 蘇衛星,朱云龍,胡琨元,等.基于模型的過程工業時間序列異常值檢測方法[J].儀器儀表學報,2012(9):2080-2087.
[9] 皇甫堪,陳建文,樓生強.現代數字信號處理[M].北京:電子工業出版社,2003.
[10] 薛安榮,鞠時光,何偉華,等.局部離群點挖掘算法研究[J].計算機學報,2007(8):1455-1463.

此內容為AET網站原創,未經授權禁止轉載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
亚洲视频网站在线观看| 欧美自拍偷拍| 国产精品色婷婷| 欧美粗暴jizz性欧美20| 久久电影一区| 亚洲精品一区二区三区av| 性欧美1819性猛交| 亚洲网站在线| 一本色道久久88精品综合| 亚洲电影专区| 黄色成人在线网址| 国产欧美va欧美不卡在线| 亚洲精品久久久久久久久久久久 | 亚洲欧美日韩综合aⅴ视频| 亚洲精品激情| 亚洲国产激情| 亚洲人成小说网站色在线| 最新日韩精品| 日韩亚洲不卡在线| 中文在线资源观看视频网站免费不卡| 亚洲一区二区三区精品视频| 亚洲欧美日产图| 欧美一二三区精品| 亚洲电影自拍| 亚洲精选国产| 亚洲一区免费网站| 欧美亚洲网站| 久久综合九色| 欧美精品一区二区蜜臀亚洲| 欧美视频日韩视频| 国产精品一级久久久| 国产无一区二区| 激情小说另类小说亚洲欧美| 亚洲日本aⅴ片在线观看香蕉| 一二美女精品欧洲| 欧美亚洲三区| 亚洲精品一级| 亚洲欧美日韩综合一区| 久久噜噜亚洲综合| 欧美激情1区| 国产精品网站在线观看| 伊人成人在线视频| 一本久久综合亚洲鲁鲁| 欧美一级电影久久| 亚洲精品五月天| 亚洲欧美国产制服动漫| 久久精品免费电影| 欧美精品日本| 国产精品综合| 亚洲激情精品| 亚洲女同在线| 亚洲人www| 午夜精品美女自拍福到在线 | 激情欧美一区二区| aa成人免费视频| 欧美一区二区三区免费视| 亚洲日本在线观看| 亚洲欧美精品中文字幕在线| 国产日韩欧美一区二区三区四区| 一区二区三区视频观看| 亚洲欧美在线看| 欧美1区3d| 国产精品亚洲视频| 亚洲国产91色在线| 亚洲欧美国产高清| 日韩视频一区二区三区在线播放免费观看 | 欧美精品一区二| 国产日本欧美视频| 亚洲另类一区二区| 久久成人18免费观看| 亚洲一区二区免费在线| 麻豆精品一区二区av白丝在线| 国产精品久久久久77777| 亚洲丰满在线| 欧美一区二区三区男人的天堂| 亚洲一卡久久| 欧美高清在线视频观看不卡| 国产亚洲电影| 一本久久精品一区二区| 亚洲破处大片| 久久免费少妇高潮久久精品99| 国产精品va在线播放| 亚洲国产日日夜夜| 欧美一区亚洲| 午夜亚洲性色福利视频| 欧美日韩综合在线| 亚洲国产成人tv| 久久成人综合视频| 欧美亚洲三级| 欧美午夜片在线免费观看| 亚洲国产mv| 亚洲高清色综合| 久久爱另类一区二区小说| 国产精品video| 日韩视频免费看| 亚洲啪啪91| 美女国产一区| 国产在线视频欧美| 亚洲在线视频| 亚洲影院污污.| 欧美色中文字幕| 亚洲免费观看高清完整版在线观看熊 | 乱中年女人伦av一区二区| 国产精品大片免费观看| 久久久91精品国产| 国产欧美精品| 亚洲欧美日韩国产中文在线| 亚洲在线国产日韩欧美| 欧美日韩亚洲天堂| 亚洲激情视频在线播放| 亚洲日韩视频| 欧美成人亚洲成人| 亚洲成人资源| 亚洲激情国产精品| 免费看成人av| 伊人久久久大香线蕉综合直播| 久久丁香综合五月国产三级网站| 久久精品国产成人| 国产在线麻豆精品观看| 久久精品国产欧美亚洲人人爽| 久久青草福利网站| 怡红院精品视频在线观看极品| 亚洲国产一区二区三区高清| 欧美风情在线观看| 亚洲国语精品自产拍在线观看| 亚洲裸体在线观看| 欧美屁股在线| 夜夜嗨av色综合久久久综合网| 在线一区二区三区四区| 欧美亚洲成人免费| 亚洲视频在线二区| 亚洲你懂的在线视频| 国产精品一区视频网站| 欧美一区=区| 卡通动漫国产精品| 亚洲激情视频在线| 国产精品99久久99久久久二8 | 亚洲国产裸拍裸体视频在线观看乱了中文| 亚洲国产欧美一区二区三区久久| 免费日韩av| 亚洲精选91| 亚洲欧美日韩国产综合| 国产日韩欧美一区二区| 亚洲国产一区二区三区青草影视 | 欧美色图一区二区三区| 亚洲一区一卡| 久久麻豆一区二区| 亚洲人成欧美中文字幕| 亚洲女人小视频在线观看| 国产亚洲欧美激情| 亚洲欧洲精品一区二区精品久久久| 欧美日韩国产一级| 亚洲欧美日韩精品久久久久| 久久男人资源视频| 亚洲日本国产| 午夜精品一区二区三区电影天堂| 极品中文字幕一区| 国产精品99久久99久久久二8| 亚洲高清不卡在线| 在线亚洲欧美视频| 欧美夜福利tv在线| 亚洲第一二三四五区| 亚洲专区欧美专区| 狠狠做深爱婷婷久久综合一区 | 亚洲精品国产日韩| 国产精品啊啊啊| 久久精品夜色噜噜亚洲a∨| 欧美绝品在线观看成人午夜影视| 亚洲嫩草精品久久| 欧美成人四级电影| 亚洲视频免费在线| 久久一区精品| 中日韩高清电影网| 老司机成人网| 亚洲伊人伊色伊影伊综合网| 欧美不卡三区| 亚洲在线第一页| 欧美大色视频| 亚洲自拍偷拍视频| 日韩午夜激情电影| 麻豆成人综合网| 亚洲欧洲一区二区三区久久| 亚洲一区在线免费观看| 国产一区二区高清视频| 亚洲最新在线视频| 国产一区二区激情| 国产精品99久久久久久白浆小说| 国产午夜精品久久久久久久| 一本到12不卡视频在线dvd| 国产一区二区三区四区老人| av成人免费在线观看| 国内精品久久久久影院薰衣草| 亚洲一二三四久久| 伊人成人在线| 欧美在线一二三| 亚洲免费不卡| 蜜臀av一级做a爰片久久| 亚洲自拍另类| 欧美日韩高清区| 亚洲国产欧美日韩精品|