與當(dāng)前的機(jī)器視覺(jué)行為執(zhí)行僅涉及前饋過(guò)程不同,人類及靈長(zhǎng)類動(dòng)物的視覺(jué)行為執(zhí)行包含前饋、反饋和時(shí)間預(yù)測(cè)等多種過(guò)程的整合。也就是說(shuō),當(dāng)前的機(jī)器視覺(jué)僅能從低級(jí)圖像屬性逐層計(jì)算傳播到高層得到模型輸出,而現(xiàn)實(shí)應(yīng)用中,即使像分類、目標(biāo)檢測(cè)這樣的任務(wù)也需要考慮復(fù)雜的高級(jí)概念,例如功能、語(yǔ)境等。為此,來(lái)自斯坦福、MIT、谷歌大腦等機(jī)構(gòu)的研究者借鑒了靈長(zhǎng)類動(dòng)物的大腦神經(jīng)結(jié)構(gòu),提出了在內(nèi)部整合了循環(huán)和遠(yuǎn)程反饋結(jié)構(gòu)的新型卷積循環(huán)模型 ConvRNN,實(shí)驗(yàn)表明,該架構(gòu)能以更少的參數(shù)達(dá)到更深層前饋 ResNet 的性能,并更好地?cái)M合靈長(zhǎng)動(dòng)物的視覺(jué)過(guò)程,說(shuō)明在執(zhí)行不同復(fù)雜視覺(jué)行為時(shí)大腦的循環(huán)連接扮演著重要角色。
大腦的感覺(jué)系統(tǒng)必須要在復(fù)雜的有噪聲感覺(jué)數(shù)據(jù)中檢測(cè)出有意義的模式 [James, 1890]。視覺(jué)環(huán)境可以揭示對(duì)象的積極或消極性質(zhì),包括食物種類、危險(xiǎn)標(biāo)志以及令人記憶猶新的社會(huì)伙伴。這些對(duì)象在每一時(shí)刻的位置、姿勢(shì)、對(duì)比度、背景以及前景都各不相同。因此,從低級(jí)圖像屬性中進(jìn)行目標(biāo)檢測(cè)是很不容易的 [Pinto 等人,2008]。靈長(zhǎng)類動(dòng)物的視覺(jué)系統(tǒng)會(huì)對(duì)相關(guān)的高級(jí)屬性進(jìn)行編碼,以便指導(dǎo)行為 [Majaj 等人,2015]。這一過(guò)程可被建模為把一張圖從原始像素值轉(zhuǎn)換為內(nèi)部表征 [DiCarlo 等人,2012]。好的編碼算法能夠?qū)⑷蝿?wù)的相關(guān)特征提供給簡(jiǎn)單的解碼過(guò)程,如線性分類器 [Hung 等人,2005,Majaj 等人,2015]。
近期的研究工作表明,基于任務(wù)優(yōu)化的深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)是靈長(zhǎng)類動(dòng)物大腦視覺(jué)編碼的精準(zhǔn)量化模型 [Yamins 等人,2014,Khaligh-Razavi 和 Kriegeskorte,2014,Gü?lü 和 van Gerven,2015]。目前與其他模型類別相比,用于識(shí)別 ImageNet 目標(biāo)的 CNN 可以更好地解釋視覺(jué)系統(tǒng)中神經(jīng)元的平均時(shí)間響應(yīng)(temporally-averaged response)。來(lái)自底層、中層、高層的卷積層的模型單元分別提供了發(fā)生在早期(V1 區(qū) [Khaligh-Razavi 和 Kriegeskorte,2014,Cadena 等人,2017])、中期(V4 區(qū) [Yamins 等人,2014])和更高的視覺(jué)皮層區(qū)域(下顳葉皮質(zhì),即 IT 區(qū),[Khaligh-Razavi 和 Kriegeskorte,2014,Yamins 等人,2014])的神經(jīng)誘發(fā)反應(yīng)的已知最好線性預(yù)測(cè)值。
但靈長(zhǎng)類動(dòng)物的視覺(jué)系統(tǒng)還有不能用前饋 CNN 建模的其他解剖結(jié)構(gòu)。這些結(jié)構(gòu)包括每個(gè)皮層區(qū)域內(nèi)密集的局部循環(huán)連接以及不同區(qū)域間的遠(yuǎn)程連接,例如從視覺(jué)層次的較高部分到較低部分的反饋 [Gilbert 和 Wu,2013]。靈長(zhǎng)類動(dòng)物大腦的視覺(jué)系統(tǒng)中「循環(huán)」(recurrence)的功能尚未得到充分研究。一些猜想認(rèn)為循環(huán)「填補(bǔ)」了缺失數(shù)據(jù) [Spoerer 等人,2017,Michaelis 等人,2018,Rajaei 等人,2018,Linsley 等人,2018],如被其他物體遮擋住的物體部分;一些猜想認(rèn)為循環(huán)通過(guò)自上而下的注意力特征的細(xì)化「銳化」了表征,以便對(duì)特定的刺激因素或特定任務(wù)的性能進(jìn)行解碼 [Gilber 和 Wu,2013,Lindsay,2015,McIntosh 等人,2017,Li 等人,2018];一些猜想認(rèn)為循環(huán)允許大腦「預(yù)測(cè)」未來(lái)的刺激信號(hào)(如電影的幀)[Rao 和 Ballard,1999,Lotter 等人,2017,Issa 等人,2018];還有一些猜想認(rèn)為循環(huán)「擴(kuò)展」了前饋計(jì)算,這意味著展開(kāi)的循環(huán)網(wǎng)絡(luò)等價(jià)于通過(guò)多次重復(fù)變換來(lái)保存神經(jīng)元(和可學(xué)習(xí)參數(shù))的更深層前饋網(wǎng)絡(luò) [Khaligh-Razavi 和 Keirgeskorte,2014,Liao 和 Poggio,2016,Zamir 等人,2017,Leroux 等人,2018]。
因?yàn)楝F(xiàn)有的神經(jīng)數(shù)據(jù)無(wú)法排除這些可能性,所以計(jì)算模型可能有助于對(duì)這些假設(shè)進(jìn)行評(píng)估。我們?cè)囍鴮?lái)自前饋 CNN 和神經(jīng)信號(hào)時(shí)間平均值的目標(biāo)驅(qū)動(dòng)建模方法 [Yamins 和 DiCarlo,2016,Mante 等人,2013,Shi 等人,2018] 擴(kuò)展到卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(ConvRNN)和神經(jīng)動(dòng)態(tài)(neural dynamics)。具體來(lái)說(shuō),我們假設(shè)給 CNN 添加循環(huán)和反饋有助于這些模型執(zhí)行行為相關(guān)任務(wù)(ethologically-relevant task),并且這樣的增強(qiáng)網(wǎng)絡(luò)可以更好地解釋視覺(jué)路徑中神經(jīng)響應(yīng)的精細(xì)時(shí)間軌跡。
盡管添加了循環(huán)結(jié)構(gòu)的增強(qiáng) CNN 已用于解決相對(duì)簡(jiǎn)單的遮擋變形和預(yù)測(cè)未來(lái)的任務(wù) [Spoerer 等人,2017,Lotter 等人,2017],但這些模型既無(wú)法泛化到前饋 CNN 執(zhí)行的較困難任務(wù)(如識(shí)別 ImageNet 數(shù)據(jù)集中的目標(biāo)),也無(wú)法像 ImageNet 優(yōu)化的 CNN 一樣對(duì)神經(jīng)響應(yīng)作出解釋。在本文的撰寫過(guò)程中,在 ImageNet 中進(jìn)行目標(biāo)識(shí)別是已知僅有的可以產(chǎn)生與視覺(jué)皮層神經(jīng)元激活模式相仿的 CNN 激活模式的任務(wù) [Khaligh-Razavi 和 Kriegeskorte,2014,Yamins 等人,2014,Cadena 等人,2017]。事實(shí)上,由于多樣性和復(fù)雜性,ImageNet 包含許多可以根據(jù)上述假設(shè)(例如嚴(yán)重遮擋、出現(xiàn)多個(gè)前景目標(biāo)等)利用循環(huán)過(guò)程的圖像。此外,近期一些針對(duì) ImageNet 的最有效方法(如 ResNet 模型 [He 等人,2016])是在多個(gè)層上重復(fù)相同的架構(gòu)模式,這說(shuō)明它們可能與較淺的循環(huán)網(wǎng)絡(luò)的展開(kāi)近似 [Liao 和 Poggio,2016]。因此我們?cè)囍剿餮h(huán)是否可以改善在 ImageNet 數(shù)據(jù)集上的分類性能。盡管其他研究是將 CNN 的輸出作為 RNN 的輸入來(lái)解決目標(biāo)分割等視覺(jué)任務(wù) [McIntosh 等人,2017],但我們選擇將循環(huán)架構(gòu)整合進(jìn) CNN 中,因?yàn)檫@樣的架構(gòu)在神經(jīng)科學(xué)文獻(xiàn)中很普遍。
我們發(fā)現(xiàn)標(biāo)準(zhǔn)的循環(huán)單元(例如標(biāo)準(zhǔn) RNN 和 LSTM [Elman,1990,Hochreiter 和 Schmidhuber,1997])不會(huì)使 ImageNet 性能提升至超越參數(shù)匹配的前饋基線的水平。但我們?cè)O(shè)計(jì)了新的局部單元架構(gòu),該架構(gòu)包含用于將循環(huán)架構(gòu)集成到 CNN 中的結(jié)構(gòu)屬性。為了在廣泛的模型架構(gòu)空間中更好地識(shí)別模型架構(gòu),我們?cè)跀?shù)以千計(jì)的模型上進(jìn)行了自動(dòng)搜索,這些模型的局部循環(huán)單元和遠(yuǎn)程反饋連接有所不同。引人注目的是我們?cè)谶@個(gè)過(guò)程中發(fā)現(xiàn)了在傳統(tǒng) RNN 中從未發(fā)現(xiàn)過(guò)的新的循環(huán)模式:例如,最成功的模型會(huì)用深度可分離的卷積專門處理局部循環(huán)連接,從而對(duì)網(wǎng)絡(luò)中類似 ResNet 的前饋骨干網(wǎng)絡(luò)進(jìn)行多重門控。此外,小部分遠(yuǎn)程反饋連接可以提升任務(wù)性能,盡管大多數(shù)只具備中性或負(fù)面影響。總的來(lái)講,這種搜索產(chǎn)生的循環(huán)模型在僅使用 75% 的參數(shù)時(shí),表現(xiàn)與更深層的前饋架構(gòu)(ResNet-34)差不多。最后,在比較循環(huán)模型特征和靈長(zhǎng)類動(dòng)物視覺(jué)系統(tǒng)中的神經(jīng)響應(yīng)后,我們發(fā)現(xiàn)基于 ImageNet 優(yōu)化的 ConvRNN 提供了以 10ms 分辨率跨越中高層視覺(jué)皮層區(qū)域的精準(zhǔn)量化的神經(jīng)動(dòng)態(tài)模型。這些結(jié)果提供了一個(gè)視覺(jué)系統(tǒng)中的局部和遠(yuǎn)程循環(huán)如何調(diào)整以適應(yīng)在靈長(zhǎng)類動(dòng)物的視覺(jué)系統(tǒng)中執(zhí)行目標(biāo)識(shí)別的模型。
圖 1:模型架構(gòu)示意圖。卷積循環(huán)網(wǎng)絡(luò)(ConvRNN)是將局部循環(huán)單元和遠(yuǎn)程反饋連接組合在一起添加到 CNN 的骨干網(wǎng)絡(luò)上。在我們的實(shí)現(xiàn)中,沿著黑色或紅色箭頭進(jìn)行的傳播需要一個(gè)時(shí)間步(10 ms)來(lái)模擬皮質(zhì)層間的傳導(dǎo)延遲。
圖 2:局部循環(huán)單元架構(gòu)的比較。(a)ConvRNN 單元間的架構(gòu)差異。標(biāo)準(zhǔn) ResNet 和標(biāo)準(zhǔn) RNN 單元都有旁路(見(jiàn)論文)。LSTM 單元有門控,在圖中用 T 字連接符表示,但是沒(méi)有旁路。reciprocal 門控單元兩個(gè)都有。(b)多種 ConvRNN 和前饋模型隨著參數(shù)數(shù)量變化產(chǎn)生的性能變化。彩色的點(diǎn)將相應(yīng)的 RNN 單元合并到 6 層前饋架構(gòu)(「FF」)中。「T」表示展開(kāi)的步數(shù)。經(jīng)過(guò)超參數(shù)優(yōu)化的 LSTM ConvRNN 和 reciprocal 門控單元 ConvRNN 通過(guò)黑線連接到未優(yōu)化版本。
圖 3:ConvRNN 的超參數(shù)化和搜索結(jié)果。(a)局部循環(huán)單元的超參數(shù)化。箭頭表示輸入單元、隱藏狀態(tài)和輸出之間的連接。問(wèn)號(hào)表示可選連接,可能是常規(guī)或深度可分離的卷積,可選擇卷積核大小。層(l-1 out、l in 和 l out)之間的反饋連接始終存在。帶有問(wèn)號(hào)的方框表示可選擇 sigmoid 或 tanh 非線性激活函數(shù)、加法,或恒等連接(identity connection,像 ResNet 中一樣)這樣的多重門控。最終,從 l+k out 層開(kāi)始的遠(yuǎn)程反饋連接可能會(huì)進(jìn)入局部單元輸入、隱藏狀態(tài)或輸出。(b)ConvRNN 搜索結(jié)果。每個(gè)藍(lán)色的點(diǎn)都表示一個(gè)模型,采樣自訓(xùn)練了 5 個(gè) epoch 的超參數(shù)空間。橙色的線是最后 50 個(gè)模型的平均性能。紅色的線表示搜索過(guò)程中該點(diǎn)表現(xiàn)最好的模型。
圖 4:最優(yōu)的局部循環(huán)單元和全局反饋連接。(a)搜索過(guò)程中表現(xiàn)最好的模型的 RNN 單元架構(gòu)。紅色的線表示每個(gè)最好的獨(dú)特模型(3b 中的紅線)所選擇的超參數(shù)(連接和與濾波器大小)。K*K 表示卷積,dsK*K 表示卷積核大小為 K*K 的深度可分離卷積。(b)搜索中的遠(yuǎn)程反饋連接。(頂部)每條軌跡表示 100 個(gè)樣本窗口中有特定反饋連接的模型的比例。(底部)每一個(gè)條表示具備給定反饋的模型與不具備該反饋的模型之間的性能中值差異。顏色與上面圖中相同的反饋顏色一致。(c)在 128px 大小的 ImageNet 上完整訓(xùn)練的模型的性能。我們比較了 ResNet-18、18 層前饋基礎(chǔ)模型(basenet)、搜索中有或沒(méi)有全局反饋連接的中位模型,以及它的最小展開(kāi)控制(T=12)的性能。「Random Model」是從模型搜索的初始隨機(jī)階段隨機(jī)選取的。每個(gè)長(zhǎng)條上方顯示的是參數(shù)數(shù)量(單位:百萬(wàn))。ResNet 模型的訓(xùn)練方法與 [He 等人,2016] 相同,但與 ConvRNN 相比,ResNet 是用 128px 大小的圖像訓(xùn)練的。
圖 5:用 ConvRNN 對(duì)靈長(zhǎng)類動(dòng)物腹側(cè)流神經(jīng)動(dòng)態(tài)進(jìn)行建模。(a)用于擬合神經(jīng)動(dòng)態(tài)的 ConvRNN 模型在 4 到 10 層具備局部循環(huán)單元和遠(yuǎn)程反饋(紅色箭頭)。(b)與大腦的腹側(cè)層次一致,V4 的大多數(shù)單元都與第 6 層的特征最佳匹配;pIT 匹配第 7 層;cIT/aIT 匹配第 8/9 層。(c)與神經(jīng)動(dòng)態(tài)擬合的模型特征與這些響應(yīng)的噪聲上限很接近。y 軸表示在 held-out 圖像上預(yù)測(cè)值和真實(shí)的響應(yīng)值之間相關(guān)單元的中值。
論文:Task-Driven Convolutional Recurrent Models of the Visual System
論文地址:https://arxiv.org/pdf/1807.00053.pdf
摘要:前饋卷積神經(jīng)網(wǎng)絡(luò)(CNN)是針對(duì)像 ImageNet 這樣的目標(biāo)分類任務(wù)的當(dāng)前最佳模型。此外,它們是靈長(zhǎng)類動(dòng)物大腦視覺(jué)系統(tǒng)中神經(jīng)元平均時(shí)間響應(yīng)的精準(zhǔn)量化模型。但是生物的視覺(jué)系統(tǒng)有兩個(gè)獨(dú)一無(wú)二的、普通 CNN 沒(méi)有的結(jié)構(gòu)特征:皮質(zhì)區(qū)域內(nèi)的局部循環(huán)和從下游區(qū)域到上游區(qū)域的遠(yuǎn)程反饋。我們?cè)诖颂剿髁搜h(huán)在改善分類表現(xiàn)中所扮演的角色。我們發(fā)現(xiàn)深度 CNN 中標(biāo)準(zhǔn)形式的循環(huán)結(jié)構(gòu)(標(biāo)準(zhǔn) RNN 和 LSTM)在 ImageNet 任務(wù)中表現(xiàn)得不是很好。相比之下,包含兩個(gè)架構(gòu)特征(旁路和門控)的自定義單元能大大提高任務(wù)的準(zhǔn)確率。我們將這些設(shè)計(jì)原理擴(kuò)展到自動(dòng)架構(gòu)搜索中,即在數(shù)千個(gè)模型架構(gòu)中識(shí)別有利于目標(biāo)識(shí)別的新型局部循環(huán)單元和遠(yuǎn)程反饋連接。此外,基于任務(wù)優(yōu)化的 ConvRNN 比前饋網(wǎng)絡(luò)更好地解釋了靈長(zhǎng)類動(dòng)物視覺(jué)系統(tǒng)中神經(jīng)激活的動(dòng)態(tài),這說(shuō)明在執(zhí)行不同復(fù)雜視覺(jué)行為時(shí)大腦的循環(huán)連接扮演著重要角色。