《電子技術應用》
您所在的位置:首頁 > 可編程邏輯 > 業界動態 > 常用測試集帶來過擬合?你真的能控制自己不根據測試集調參嗎

常用測試集帶來過擬合?你真的能控制自己不根據測試集調參嗎

2018-06-06

在驗證集上調優模型已經是機器學習社區通用的做法,雖然理論上驗證集調優后不論測試集有什么樣的效果都不能再調整模型,但實際上模型的超參配置或多或少都會受到測試集性能的影響。因此研究社區可能設計出只在特定測試集上性能良好,但無法泛化至新數據的模型。本論文通過創建一組真正「未見過」的同類圖像來測量 CIFAR-10 分類器的準確率,因而充分了解當前的測試集是否會帶來過擬合風險。


1 引言


過去五年中,機器學習成為一塊實驗田。受深度學習研究熱潮的驅動,大量論文圍繞這樣一種范式——新型學習技術出現的主要依據是它在多項關鍵基準上的性能提升。同時,很少有人解釋為什么這項技術是對先前技術的可靠改進。研究者對研究進展的認知主要依賴于少量標準基準,如 CIFAR-10、ImageNet 或 MuJoCo。這就引出了一個關鍵問題:


目前機器學習領域衡量研究進展的標準有多可靠?


對機器學習領域的進展進行恰當評估是一件非常精細的事情。畢竟,學習算法的目標是生成一個可有效泛化至未見數據的模型。由于通常無法獲取真實數據的分布,因此研究人員轉而在測試集上評估模型性能。只要不利用測試集來選擇模型,這就是一種原則性強的評估方案。


不幸的是,我們通常只能獲取具備同樣分布的有限新數據?,F在大家普遍接受在算法和模型設計過程中多次重用同樣的測試集。該實踐有很多例子,包括一篇論文中的調整超參數(層數等),以及基于其他研究者的研究構建模型。盡管對比新模型與之前模型的結果是非常自然的想法,但很明顯當前的研究方法論削弱了一個關鍵假設:分類器與測試集是獨立的。這種不匹配帶來了一種顯而易見的危險,研究社區可能會輕易設計出只在特定測試集上性能良好,但無法泛化至新數據的模型 [1]。


1.1 在 CIFAR-10 上的復現性研究


為了了解機器學習當前進展的可靠性,本文作者設計并實施了一種新型復現性研究。主要目標是衡量現在的分類器泛化至來自同一分布的未見數據的性能。研究者主要使用標準 CIFAR-10 數據集,因為它的創建過程是透明的,尤其適合這項任務。此外,近十年的大量研究使用 CIFAR-10。由于該過程的競爭性本質,這是一項調查適應性(adaptivity)是否導致過擬合的優秀測試用例。


該研究分為三步:


1. 首先,研究者創建一個新的測試集,將新測試集的子類別分布與原始 CIFAR-10 數據集進行仔細匹配。


2. 在收集了大約 2000 張新圖像之后,研究者在新測試集上評估 30 個圖像分類模型的性能。結果顯示出兩個重要現象。一方面,從原始測試集到新測試集的模型準確率顯著下降。例如,VGG 和 ResNet 架構 [7, 18] 的準確率從 93% 下降至新測試集上的 85%。另一方面,研究者發現在已有測試集上的性能可以高度預測新測試集上的性能。即使在 CIFAR-10 上的微小改進通常也能遷移至留出數據。


3. 受原始準確率和新準確率之間差異的影響,第三步研究了多個解釋這一差距的假設。一種自然的猜想是重新調整標準超參數能夠彌補部分差距,但是研究者發現該舉措的影響不大,僅能帶來大約 0.6% 的改進。盡管該實驗和未來實驗可以解釋準確率損失,但差距依然存在。


總之,研究者的結果使得當前機器學習領域的進展意味不明。適應 CIFAR-10 測試集的努力已經持續多年,模型表現的測試集適應性并沒有太大提升。頂級模型仍然是近期出現的使用 Cutout 正則化的 Shake-Shake 網絡 [3, 4]。此外,該模型比標準 ResNet 的優勢從 4% 上升至新測試集上的 8%。這說明當前對測試集進行長時間「攻擊」的研究方法具有驚人的抗過擬合能力。


但是該研究結果令人對當前分類器的魯棒性產生質疑。盡管新數據集僅有微小的分布變化,但廣泛使用的模型的分類準確率卻顯著下降。例如,前面提到的 VGG 和 ResNet 架構,其準確率損失相當于模型在 CIFAR-10 上的多年進展 [9]。注意該實驗中引入的分布變化不是對抗性的,也不是不同數據源的結果。因此即使在良性設置中,分布變化也對當前模型的真正泛化能力帶來了嚴峻挑戰。


4 模型性能結果


完成新測試集構建之后,研究者評估了多種不同的圖像分類模型。主要問題在于如何對原始 CIFAR-10 測試集上的準確率和新測試集上的準確率進行比較。為此,研究者對機器學習研究領域中出現多年的多種分類器進行了實驗,這些模型包括廣泛使用的卷積網絡(VGG 和 ResNet [7,18])、近期出現的架構(ResneXt、PyramidNet、DenseNet [6,10,20])、已發布的當前最優模型 Shake-Drop[21],以及從基于強化學習的超參數搜索而得到的模型 NASNet [23]。此外,他們還評估了基于隨機特征的「淺層」方法 [2,16]??傮w來說,原始 CIFAR-10 測試集上的準確率的范圍是 80% 到 97%。


對于所有深層架構,研究者都使用了之前在線發布的代碼來實現(參見附錄 A 的列表)。為了避免特定模型 repo 或框架帶來的偏差,研究者還評估了兩個廣泛使用的架構 VGG 和 ResNet(來自于在不同深度學習庫中實現的兩個不同來源)。研究者基于隨機特征為模型編寫實現。


主要的實驗結果見表 1 和圖 2 上,接下來將介紹結果中的兩個重要趨勢,然后在第 6 部分中討論結果。

微信圖片_20180606200314.jpg


表 1:在原始 CIFAR-10 測試集和新測試集上的模型準確率,其中 Gap 表示兩個準確率之間的差距。? Rank 是從原始測試集到新測試集的排名的相對變化。例如,? Rank = ?2 表示模型在新測試集中的準確率排名下降了兩位。

微信圖片_20180606200406.jpg


圖 2:新測試集上的模型準確率 vs 原始數據集上的模型準確率。


4.1 準確率顯著下降


所有模型在新測試集上的準確率都有顯著的下降。對于在原始測試集上表現較差的模型,這個差距更大;對于在原始測試集上表現較好的模型,這個差距較小。例如,VGG 和 ResNet 架構的原始準確率(約 93%)和新準確率(約 85%)的差距大約為 8%。最佳準確率由 shake_shake_64d_cutout 得到,其準確率大致下降了 4%(從 97% 到 93%)。雖然準確率下降幅度存在變化,但沒有一個模型是例外。


關于相對誤差,擁有更高原始準確率的模型的誤差可能有更大的增長。某些模型例如 DARC、shake_shake_32d 和 resnext_29_4x64d 在誤差率上有 3 倍的增長。對于較簡單的模型例如 VGG、AlexNet 或 ResNet,相對誤差增長在 1.7 倍到 2.3 倍之間。參見附錄 C 中的全部相對誤差的表格。


4.2 相對順序變化不大


按照模型的新舊準確率順序對其進行分類時,總體排序結果差別不大。具有類似原始準確率的模型往往出現相似的性能下降。實際上,如圖 2 所示,從最小二乘法擬合中派生出的線性函數可以對新舊準確率之間的關系做出很好的解釋。模型的新準確率大致由以下公式得出:


微信圖片_20180606200452.jpg

另一方面,值得注意的是一些技術在新測試集上有了持續的大幅提升。例如,將 Cutout 數據增強 [3] 添加到 shake_shake_64d 網絡,在原始測試集上準確率只增加了 0.12%,而在新測試集上準確率增加了大約 1.5%。同樣,在 wide_resnet_28_10 分類器中添加 Cutout,在原始測試集上準確度提高了約 1%,在新測試集上提高了 2.2%。在另一個例子里,請注意,增加 ResNet 的寬度而不是深度可以為在新測試集上的性能帶來更大的好處。


4.3 線性擬合模型


盡管圖 2 中觀察到的線性擬合排除了新測試集與原始測試集分布相同的可能性,但新舊測試誤差之間的線性關系仍然非常顯著。對此有各種各樣的合理解釋。例如,假設原始測試集由兩個子集組成。在「easy」子集上,分類器達到了 a_0 的精度?!竓ard」子集的難度是κ倍,因為這些例子的分類誤差是κ倍。因此,該子集的精度為 1 ? κ(1 ? a_0)。如果這兩個子集的相對頻率是 p_1 和 p_2,可以得到以下總體準確率:

微信圖片_20180606200527.jpg


可以重寫為 a_0 的簡單線性函數:


微信圖片_20180606200603.jpg

對于新的測試集,研究者也假設有由不同比例的兩個相同分量組成的混合分布,相對頻率現在是 q_1 和 q_2。然后,可以將新測試集上的準確率寫為:



微信圖片_20180606200623.jpg

此處像之前一樣把項集合成一個簡單的線性函數。


現在很容易看出,新的準確率實際上是原始準確率的線性函數:


微信圖片_20180606200647.jpg

研究人員注意到,這種混合模型并不是一種真實的解釋,而是一個說明性的例子,說明原始和新的測試準確率之間的線性相關性是如何在數據集之間的小分布移位下自然產生的。實際上,兩個測試集在不同的子集上具有不同準確率的更復雜的組成。盡管如此,該模型揭示了即使分類器的相對排序保持不變,分布移位也可能存在令人驚訝的敏感性。研究人員希望這種對分布偏移的敏感性能夠在之后的研究中得到實驗驗證。


5. 解釋差異


為了解釋新舊準確率之間的巨大差距,研究人員探究了多種假設(詳見原文)。


統計誤差

近似重復移除的差異

超參數調整

檢測高難度圖像

在部分新測試集上進行訓練

交叉驗證

微信圖片_20180606200708.jpg


表 2:交叉驗證拆分的模型準確率。


6 討論


過擬合:實驗是否顯示出過擬合?這是解釋結果時的主要問題。簡單來說,首先定義過擬合的兩個概念:


訓練集過擬合。過擬合的一個概念是訓練準確率和測試準確率之間的差異。請注意,本研究的實驗中的深度神經網絡通常達到 100% 的訓練準確率。所以這個過擬合的概念已經出現在已有數據集上了。

測試集過擬合。過擬合的另一個概念是測試準確率和潛在數據分布準確率之間的差距。通過使模型設計選擇適應測試集,他們擔心的是這將隱性地使模型適應測試集。測試準確率隨后失去了對真正未見過數據準確性進行測量的有效性。


由于機器學習的整體目標是泛化到未見過的數據,研究者認為通過測試集適應性實現的第二種過擬合更重要。令人驚訝的是,他們的研究結果顯示在 CIFAR-10 并沒有這種過擬合的跡象。盡管在該數據集上具有多年的競爭適應性,但在真正的留出數據(held out data)上并沒有停滯不前。事實上,在新測試集中,性能最好的模型比更成熟的基線有更大的優勢。盡管這一趨勢與通過適應性實現過擬合所暗示的相反。雖然最終的結果需要進一步的復制實驗,但研究者認為他們的結果支持基于競爭的方法來提高準確率。


研究者注意到 Blum 和 Hardt 的 Ladder 算法分析可以支持這一項聲明 [1]。事實上,他們表明向標準機器學習競賽中加入一些小修改就能避免這種程度的過擬合,即通過激進的適應性導致過擬合。他們的結果表明即使沒有這些修改,基于測試誤差的模型調優也不會在標準數據集上產生過擬合現象。


分布轉移(distribution shift)。盡管研究者的結果并不支持基于適應性的過擬合假設,但仍需要解釋原始準確率和新準確率之間的顯著性差異。他們認為這種差異是原始 CIFAR-10 數據集與新的測試集之間小的分布轉移造成的。盡管研究者努力復制 CIFAR-10 數據集的創建過程,但它和原始數據集之間的差距還是很大,因此也就影響了所有模型。通??梢酝ㄟ^對數據生成過程中的特定變換(如光照條件的改變),或用對抗樣本進行攻擊來研究數據分布的轉移。本研究的實驗更加溫和而沒有引起這些挑戰。盡管如此,所有模型的準確率都下降了 4-15%,對應的誤差率增大了 3 倍。這表明目前 CIFAR-10 分類器難以泛化到圖像數據的自然變化。


論文:Do CIFAR-10 Classifiers Generalize to CIFAR-10?


微信圖片_20180606200731.jpg

論文地址:https://arxiv.org/abs/1806.00451


摘要:目前大部分機器學習做的都是實驗性的工作,主要集中在一些關鍵任務的改進上。然而,性能最好的模型所具有的令人印象深刻的準確率令人懷疑,因為多年來一直使用相同的測試集來選擇這些模型。為了充分了解其中的過擬合風險,我們通過創建一組新的真正未見過的圖像來測量 CIFAR-10 分類器的準確率。盡管確保了新的測試集盡可能接近原始數據分布,但我們發現,很多深度學習模型的準確率下降很大(4% 到 10%)。然而,具有較高原始準確率的較新模型顯示出較小的下降和較好的整體性能,這表明這種下降可能不是由基于適應能力的過擬合造成的。相反,我們認為我們的結果表明了當前的準確率是脆弱的,并且容易受到數據分布中微小自然變化的影響。


本站內容除特別聲明的原創文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯系電話:010-82306118;郵箱:aet@chinaaet.com。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
国产午夜亚洲精品羞羞网站 | 亚洲国产婷婷综合在线精品| 亚洲免费视频网站| 亚洲黄色免费| 在线欧美日韩国产| 狠久久av成人天堂| 激情久久久久久| 国内久久视频| 红桃视频成人| 在线成人小视频| 在线观看日韩欧美| 亚洲第一视频| 亚洲高清资源综合久久精品| 在线观看91久久久久久| 伊人久久婷婷| 亚洲二区在线| 亚洲国产高清在线观看视频| 亚洲国产婷婷香蕉久久久久久| 亚洲黑丝一区二区| 亚洲日本va午夜在线电影| 亚洲人成网站在线观看播放| 日韩视频在线观看免费| 日韩一级成人av| 一区二区三区四区在线| 亚洲一区三区视频在线观看| 亚洲欧美欧美一区二区三区| 午夜免费在线观看精品视频| 欧美一区二区三区播放老司机| 欧美一区二视频| 亚洲福利视频一区| 亚洲美女黄色片| 亚洲视频观看| 午夜精品久久久久久久久久久久久 | 一区精品久久| 亚洲精品乱码久久久久久蜜桃91| 日韩一级精品视频在线观看| 制服丝袜激情欧洲亚洲| 午夜国产精品影院在线观看| 欧美伊人久久| 亚洲精品日韩欧美| 亚洲私人影院| 欧美一区二区三区日韩视频| 欧美在线一二三四区| 欧美在线视频免费| 亚洲人成欧美中文字幕| 一本一本久久| 香蕉精品999视频一区二区 | 欧美连裤袜在线视频| 欧美无乱码久久久免费午夜一区| 国产精品嫩草久久久久| 韩国精品一区二区三区| 91久久黄色| 亚洲在线视频观看| 亚洲人www| 亚洲欧美在线磁力| 暖暖成人免费视频| 国产精品久久久久一区| 精品av久久707| 日韩午夜精品| 久久成人免费电影| 一本色道久久综合亚洲二区三区| 午夜久久黄色| 欧美高清视频一区| 国产美女高潮久久白浆| 亚洲高清av在线| 在线中文字幕日韩| 亚洲国产精品第一区二区| 在线一区二区日韩| 久久一区激情| 国产精品久久精品日日| 欧美激情乱人伦| 国产精品久久久久久久9999| 狠狠色综合网站久久久久久久| 最近看过的日韩成人| 午夜免费电影一区在线观看| 亚洲乱码视频| 欧美在线一二三四区| 欧美女主播在线| 国产自产高清不卡| 一区二区三区日韩欧美| 亚洲国产欧美不卡在线观看| 亚洲欧美日韩另类| 欧美国产亚洲精品久久久8v| 国产午夜精品视频免费不卡69堂| 亚洲免费高清| 亚洲级视频在线观看免费1级| 午夜亚洲伦理| 欧美日韩一区在线播放| 影音先锋欧美精品| 亚洲欧美日韩视频二区| 中文欧美在线视频| 欧美.com| 韩国三级电影久久久久久| 亚洲一二三四久久| 在线亚洲国产精品网站| 欧美成熟视频| 狠狠久久五月精品中文字幕| 亚洲一级黄色片| 一区二区不卡在线视频 午夜欧美不卡在 | 欧美精品久久久久久久免费观看| 国产亚洲一级| 亚洲一区在线观看视频| 亚洲一区二区黄| 欧美日韩福利| 亚洲欧洲在线免费| 亚洲精品美女在线| 欧美aaa级| 亚洲大胆女人| 亚洲电影av| 久久综合精品国产一区二区三区| 国产三级精品在线不卡| 午夜国产欧美理论在线播放| 欧美一区二区三区四区在线| 国产精品第2页| 亚洲午夜激情| 亚洲欧美一区二区在线观看| 国产精品乱人伦一区二区 | 欧美一区二区视频在线观看2020| 国产精品高清在线观看| 一区二区欧美在线| 亚洲香蕉伊综合在人在线视看| 欧美日韩另类国产亚洲欧美一级| 亚洲国产精品久久久久秋霞影院 | 国产日韩欧美黄色| 亚洲欧美在线看| 欧美一区二区高清| 国产欧美综合在线| 欧美一级理论性理论a| 久久国产一区二区| 老色批av在线精品| 韩国成人精品a∨在线观看| 久久精品五月| 蜜臀va亚洲va欧美va天堂| 亚洲激情精品| 在线视频日韩精品| 国产精品mv在线观看| 亚洲一级一区| 久久av二区| 精品99视频| 9久草视频在线视频精品| 欧美图区在线视频| 亚洲欧美日韩精品综合在线观看| 久久精精品视频| 在线欧美影院| 一区二区三区四区蜜桃| 国产精品人人爽人人做我的可爱| 亚洲自拍偷拍麻豆| 久久久精品国产一区二区三区| 黄色av成人| 亚洲毛片av| 国产精品国产三级国产a| 欧美在线关看| 欧美成人一品| 一区二区三区国产在线| 欧美怡红院视频| 在线视频观看日韩| 亚洲一区二区三区免费视频| 国产婷婷成人久久av免费高清| 亚洲电影在线看| 欧美日韩高清在线| 亚洲欧美影院| 欧美激情第三页| 亚洲一区影音先锋| 欧美 日韩 国产一区二区在线视频 | 久热re这里精品视频在线6| 91久久久亚洲精品| 午夜精品福利在线| 在线视频国产日韩| 亚洲欧美激情一区| 亚洲第一免费播放区| 亚洲自拍电影| 一区免费在线| 亚洲欧美激情四射在线日 | 欧美精品一卡| 午夜亚洲福利| 欧美精品在线网站| 午夜精品视频网站| 欧美美女视频| 久久国产精品毛片| 欧美性生交xxxxx久久久| 久久精品视频在线播放| 国产精品爱久久久久久久| 久久高清国产| 国产精品国产自产拍高清av| 久久精品国产免费观看| 国产精品theporn| 91久久黄色| 国产日本欧美在线观看| 在线一区二区日韩| 在线成人av| 久久精品99| 亚洲午夜成aⅴ人片| 欧美二区不卡| 久久成人免费视频| 国产精品久久久久高潮| 亚洲精品乱码| 狠狠入ady亚洲精品| 香蕉久久夜色精品国产使用方法| 亚洲激情视频网站| 久久婷婷亚洲|