《電子技術應用》
您所在的位置:首頁 > EDA與制造 > 設計應用 > 探索性數據分析(EDA)及其應用
探索性數據分析(EDA)及其應用
摘要: EDA的出現主要是在對數據進行初步分析時,往往還無法進行常規的統計分析。這時候,如果分析者先對數據進行探索性分析,辨析數據的模式與特點,并把它們有序地發掘出來,就能夠靈活地選擇和調整合適的分析模型,并揭示數據相對于常見模型的種種偏離。在此基礎上再采用以顯著性檢驗和置信區間估計為主的統計分析技術,就可以科學地評估所觀察到的模式或效應的具體情況。
關鍵詞: EDA JMP
Abstract:
Key words :

  所謂探索性數據分析(EDA" title="EDA">EDA),是指對已有的數據(特別是調查或觀察得來的原始數據)在盡量少的先驗假定下進行探索,通過作圖、制表、方程擬合、計算特征量等手段探索數據的結構和規律的一種數據分析方法。特別是當我們對這些數據中的信息沒有足夠的經驗,不知道該用何種傳統統計方法進行分析時,探索性數據分析就會非常有效。探索性數據分析在上世紀六十年代被提出,其方法由美國著名統計學家約翰·圖基(John Tukey)命名。

  EDA的出現主要是在對數據進行初步分析時,往往還無法進行常規的統計分析。這時候,如果分析者先對數據進行探索性分析,辨析數據的模式與特點,并把它們有序地發掘出來,就能夠靈活地選擇和調整合適的分析模型,并揭示數據相對于常見模型的種種偏離。在此基礎上再采用以顯著性檢驗和置信區間估計為主的統計分析技術,就可以科學地評估所觀察到的模式或效應的具體情況。

  所以概括起來說,分析數據可以分為探索和驗證兩個階段。探索階段強調靈活探求線索和證據,發現數據中隱藏的有價值的信息,而驗證階段則著重評估這些證據,相對精確地研究一些具體情況。在驗證階段,常用的主要方法是傳統的統計學方法,在探索階段,主要的方法就是EDA,下面我們重點對EDA做進一步的說明。

  EDA的特點有三個:一是在分析思路上讓數據說話,不強調對數據的整理。傳統統計方法通常是先假定一個模型,例如數據服從某個分布(特別常見的是正態分布),然后使用適合此模型的方法進行擬合、分析及預測。但實際上,多數數據(尤其是實驗數據)并不能保證滿足假定的理論分布。因此,傳統方法的統計結果常常并不令人滿意,使用上受到很大的局限。EDA則可以從原始數據出發,深入探索數據的內在規律,而不是從某種假定出發,套用理論結論,拘泥于模型的假設。

  二是EDA分析方法靈活,而不是拘泥于傳統的統計方法。傳統的統計方法以概率論為基礎,使用有嚴格理論依據的假設檢驗、置信區間等處理工具。EDA處理數據的方式則靈活多樣,分析方法的選擇完全從數據出發,靈活對待,靈活處理,什么方法可以達到探索和發現的目的就使用什么方法。這里特別強調的是EDA更看重的是方法的穩健性、耐抗性,而不刻意追求概率意義上的精確性。

  三是EDA分析工具簡單直觀,更易于普及。傳統的統計方法都比較抽象和深奧,一般人難于掌握,EDA則更強調直觀及數據可視化,更強調方法的多樣性及靈活性,使分析者能一目了然地看出數據中隱含的有價值的信息,顯示出其遵循的普遍規律及與眾不同的突出特點,促進發現規律,得到啟迪,滿足分析者的多方面要求,這也是EDA對于數據分析的的主要貢獻。

  值得一提的是,正因為EDA更強調直觀及圖形顯示,所以它采用了很多創新的可視化技術,目前這些可視化技術已經有了很好的實現載體,目前最為主流的探索性數據分析軟件是以圖形效果好、交互性強、易學易用著稱的統計發現軟件JMP" title="JMP">JMP。即使不具備統計學基礎的分析者也能在JMP的幫助下,輕松地發現數據、擬合以及殘差的規律,獲得意想不到的發現,為后續的分析啟發思路、指明方向。

  下面,用一個典型的小案例來說明EDA的實際應用。

  我們為了對全球經濟的發展趨勢和世界頂級公司的經營狀況做一些研究,可以從公共網站上下載數據(如http://www.forbes.com/lists中的福布斯2000強名單),用JMP略作整理之后可以得到如表一所示的數據表,其中包含了上榜公司的名稱、所屬行業、所屬國家、上榜年份、上榜排名、市場價值、資產額、銷售額、利潤額等9個變量,總計14000條記錄(每年2000條,從2004年至2010年共7個年度)。現在的問題是:數據有了,其中到底隱藏著怎樣的有價值的信息呢?我們又如何發現這些信息呢?

  有人說:既然是連續型數據,又包含時間變量,應該用時間序列方法進行分析!的確,時間序列可以告訴我們變量隨時間的變化,然而實際中我們所希望和可以得到的有價值的信息,往往遠不止“隨時間變化”這么簡單,更何況,需要分析這些商業數據的用戶常常并不清楚什么是“時間序列分析”方法。

  還有人說:用一些傳統的圖形工具,比如折線圖、柱狀圖、餅圖等等來分析,不就可以進行數據探索了嗎?這種方法似乎是可行的,但這些數據中有不少類別變量,他們的分類水平很多(例如年份跨越7年,行業分為30個,國家有75個之多,公司名稱更是多達3505個),這樣一來,光作圖可能就讓我們筋疲力盡了,“數據探索”又從何談起?

  表一  經JMP軟件整理的福布斯2000強排行數據

  表一  經JMP軟件整理的福布斯2000強排行數據

  什么方法才能很好地探索這些數據,從中發現我們所期望的、甚至意想不到的重要信息呢?我們應該從哪里著手分析才能找到這些信息呢?我們來嘗試運用現代EDA中的可視 化技術“泡泡圖”來邊看邊想。在JMP軟件的幫助下,我們可以很快得到類似圖一的圖形,其中的橫軸代表公司的市值,縱軸代表公司的銷售額,泡泡的大小代表公司的利潤額,泡泡的顏色代表公司所屬的行業。最有意義的是,所有的泡泡并不是靜止不動的,它們的位置、大小等都會隨著年度的變化而動態變化。與此同時,整個變化的歷史軌跡線也會在圖中顯示出來。

  這樣一來,我們就可以直觀地發現一些明顯的數據特征。就拿圖中標識出來的兩家知名公司來說。我們會發現通用電氣General Electric的經營業績比較穩定,而埃克森美孚Exxon Mobil就相對顯得大起大落一些。雖然兩者有明顯不同,但自2008年起,市場價值均有顯著的回落,這應當與當時席卷全球的經濟危機有關。

圖一  基于JMP軟件生成的動態泡泡圖

圖一  基于JMP軟件生成的動態泡泡圖

  有人在發現這些特征后會迸出一些新的想法:通用電氣、埃克森美孚都是美國的企業,中國企業的表現又如何的呢?我們可以在使用“泡泡圖”的同時,在JMP中調用“數據篩選”功能就可以得到類似圖三的界面。

  從中可以清晰地觀察到,自2004年以來的7年間,共有392個次的中國企業登上了福布斯排行榜。雖然在數量上、市值、銷售額等經營指標上與世界頂級企業有一定差距,但以中石油Petro China、中石化Sinopec China Petroleum等位代表的一批國有大型企業發展速度很快,令世界矚目。

圖二  JMP軟件中動態泡泡圖與數據篩選的配合使用

圖二  JMP軟件中動態泡泡圖與數據篩選的配合使用

  實際上,探索性數據分析還遠遠不止這些。分析人士完全可以在數據分析的初期不受太多理論條件的束縛,充分展開想象的翅膀,多角度、多層面地對現有數據的規律進行可視化的探索,新的線索往往就會自然而然地出現了,為下一步的統計建模與預測等精細化分析奠定良好的基礎。

       總之,探索性數據分析強調靈活地探求線索和證據,重在發現數據中可能隱藏著的有價值的信息,比如數據的分布模式、變化趨勢,可能的交互影響,異常變化等等,而傳統的統計方法則側重于評估已經發現的證據,通常要求分析人員具備一定的統計學基礎。根據不同的業務目的和數據資源選用不同的技術,或者綜合使用這兩類技術,將會使我們更快地獲得更多的發現。對于大都不具備統計學功底但數據分析任務卻越來越多的企業人員(如市場分析人員、質量管理人員等)來說,重視、學習并用好探索性數據分析往往能事半功倍。

此內容為AET網站原創,未經授權禁止轉載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
久久久精品五月天| 亚洲精品国产精品乱码不99按摩| 欧美伊人影院| 欧美一区二区精品在线| 国产小视频国产精品| 久久人人看视频| 亚洲精华国产欧美| 亚洲日本乱码在线观看| 欧美日韩中文字幕在线| 在线一区欧美| 亚洲欧美偷拍卡通变态| 在线观看成人小视频| 欧美日韩精品免费观看视频| 亚洲免费人成在线视频观看| 欧美一区免费视频| 校园激情久久| 亚洲欧洲精品天堂一级| 亚洲国产精品成人va在线观看| 欧美午夜在线| 久久―日本道色综合久久| 韩国女主播一区| 亚洲欧美国产精品va在线观看 | 国产精品一二三四| 久久精品免费播放| 99国产精品久久| 欧美亚洲综合另类| 亚洲欧美激情视频在线观看一区二区三区| 亚洲一区二区三区乱码aⅴ蜜桃女| 亚洲大片免费看| 国产精品午夜久久| 欧美专区18| 欧美午夜精品| 欧美午夜宅男影院| 国产精品一区二区欧美| 欧美成人黄色小视频| 亚洲欧美久久久| 午夜亚洲一区| 一本综合精品| 亚洲风情在线资源站| 亚洲一区二区高清| 性欧美xxxx视频在线观看| 亚洲高清av| 一本色道久久88亚洲综合88| 亚洲国产另类久久久精品极度| 亚洲一区二区三区乱码aⅴ| 亚洲欧美怡红院| 99在线热播精品免费| 亚洲第一页在线| 日韩一级免费| 最新69国产成人精品视频免费| 亚洲精品乱码久久久久久蜜桃91 | 国产精品香蕉在线观看| 激情欧美一区二区三区| 久久久国产成人精品| 久久天堂精品| 欧美成人免费视频| 欧美色另类天堂2015| 国产精品毛片| 欧美日韩美女在线| 国产麻豆午夜三级精品| 在线观看亚洲| 亚洲视频一区在线| 日韩一级免费| 欧美一区二区大片| 一区二区三区www| 久久精品日韩| 欧美另类变人与禽xxxxx| 免费中文字幕日韩欧美| 久久久久综合网| 欧美一级免费视频| 欧美xxxx在线观看| 国产欧美日韩一区二区三区| 国产精品爱久久久久久久| 国产自产精品| 国产亚洲综合精品| 国产农村妇女毛片精品久久麻豆| 黄色国产精品一区二区三区| 亚洲免费精彩视频| 一本色道久久88精品综合| 久久精品二区三区| 亚洲第一搞黄网站| 亚洲国产精品第一区二区三区| 中文久久精品| 欧美11—12娇小xxxx| 国产日本欧美视频| 一区二区免费在线视频| 中日韩男男gay无套| 亚洲人成网站在线播| 欧美在线网址| 国产精品国产一区二区| 欧美视频一区二区三区在线观看| 国内精品久久久久久| 亚洲手机成人高清视频| 99re热这里只有精品视频| 久久男人av资源网站| 国产精品一区二区三区久久| 亚洲免费av电影| 亚洲精品美女免费| 另类激情亚洲| 欧美精品一区二区三区很污很色的 | 亚洲一区日韩| 欧美一二三区精品| 亚洲免费在线视频一区 二区| 欧美日韩p片| 亚洲国产精品成人| 亚洲黄色一区| 久久综合中文字幕| 好男人免费精品视频| 欧美在线视频播放| 久久九九国产精品| 国产在线视频欧美| 欧美一区二区三区四区高清| 亚洲欧美一区二区视频| 久久久久久97三级| 国产日韩欧美在线| 性高湖久久久久久久久| 欧美一区网站| 国产日产欧美精品| 先锋影音国产一区| 久久不射中文字幕| 国内精品久久久久伊人av| 欧美伊人久久| 夜夜精品视频一区二区| 麻豆久久婷婷| 免费亚洲一区| 激情一区二区三区| 亚洲高清资源综合久久精品| 狂野欧美激情性xxxx| 亚洲国产成人久久综合| 亚洲精品日韩一| 欧美日产国产成人免费图片| 99在线精品视频在线观看| 亚洲一区二区视频在线| 久久免费99精品久久久久久| 国产一区二区三区久久| 亚洲福利精品| 欧美福利电影在线观看| 亚洲精选中文字幕| 亚洲永久字幕| 国产偷国产偷精品高清尤物| 久久国产精品一区二区三区四区| 宅男噜噜噜66一区二区| 国产精品福利在线观看| 亚洲欧美日韩综合国产aⅴ| 久久婷婷人人澡人人喊人人爽| 亚洲电影免费| 亚洲午夜激情| 嫩模写真一区二区三区三州| 亚洲欧洲一区二区三区在线观看| 在线视频欧美精品| 国产精品女同互慰在线看| 欧美专区日韩视频| 欧美风情在线| 亚洲午夜激情| 欧美一区二区观看视频| 国户精品久久久久久久久久久不卡| 亚洲欧美一区二区精品久久久| 久久国产夜色精品鲁鲁99| 国产欧美亚洲视频| 欧美专区亚洲专区| 欧美成人资源网| 99www免费人成精品| 午夜精品久久久久久99热| 国内精品嫩模av私拍在线观看| 亚洲欧洲一区二区天堂久久| 亚洲韩国精品一区| 久久字幕精品一区| 亚洲国产高清aⅴ视频| 亚洲夜间福利| 国产一区二区三区无遮挡| 亚洲美女av网站| 免费精品99久久国产综合精品| 亚洲精选久久| 久久久久久**毛片大全| 欧美亚洲一区在线| 久久精品一二三| 亚洲精品一二区| 久久久精品日韩| 99精品视频免费| 久久夜色精品| 一区二区av在线| 久久综合电影一区| 亚洲视频精选| 免费av成人在线| 亚洲自拍偷拍一区| 欧美韩国日本综合| 亚洲国产高清自拍| 亚洲欧美在线aaa| 亚洲国产天堂久久综合| 欧美专区亚洲专区| 99re成人精品视频| 免费观看一区| 欧美一区二区三区在线视频 | 亚洲欧洲日本专区| 国产精品最新自拍| 一区二区三区免费网站| 黄色国产精品| 久久成人精品| 亚洲线精品一区二区三区八戒| 欧美激情日韩|