《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 可編程邏輯 > 業(yè)界動(dòng)態(tài) > 基于神經(jīng)網(wǎng)絡(luò)的深度解析

基于神經(jīng)網(wǎng)絡(luò)的深度解析

2019-06-28

  本來想把題目取為“從煉丹到化學(xué)”,但是這樣的題目太言過其實(shí),遠(yuǎn)不是近期可以做到的,學(xué)術(shù)研究需要嚴(yán)謹(jǐn)。但是,尋找適當(dāng)?shù)臄?shù)學(xué)工具去建模深度神經(jīng)網(wǎng)絡(luò)表達(dá)能力和訓(xùn)練能力,將基于經(jīng)驗(yàn)主義的調(diào)參式深度學(xué)習(xí),逐漸過渡為基于一些評(píng)測(cè)指標(biāo)定量指導(dǎo)的深度學(xué)習(xí), 是新一代人工智能需要面對(duì)的課題,也是在當(dāng)前深度學(xué)習(xí)渾渾噩噩的大背景中的一些新的希望。

  這篇短文旨在介紹團(tuán)隊(duì)近期的ICML工作——”Towards a Deep and Unified Understanding of Deep Neural Models in NLP”(這篇先介紹NLP領(lǐng)域,以后有時(shí)間再介紹類似思想解釋CV網(wǎng)絡(luò)的論文)。這是我與微軟亞洲研究院合作的一篇論文。其中,微軟研究院的王希廷研究員在NLP方向有豐富經(jīng)驗(yàn),王老師和關(guān)超宇同學(xué)在這個(gè)課題上做出了非常巨大的貢獻(xiàn),這里再三感謝。

5d12f3492c025-thumb.png

  大家說神經(jīng)網(wǎng)絡(luò)是“黑箱”,其含義至少有以下兩個(gè)方面:一、神經(jīng)網(wǎng)絡(luò)特征或決策邏輯在語(yǔ)義層面難以理解;二、缺少數(shù)學(xué)工具去診斷與評(píng)測(cè)網(wǎng)絡(luò)的特征表達(dá)能力(比如,去解釋深度模型所建模的知識(shí)量、其泛化能力和收斂速度),進(jìn)而解釋目前不同神經(jīng)網(wǎng)絡(luò)模型的信息處理特點(diǎn)。

  過去我的研究一直關(guān)注第一個(gè)方面,而這篇ICML論文同時(shí)關(guān)注以上兩個(gè)方面——針對(duì)不同自然語(yǔ)言應(yīng)用的神經(jīng)網(wǎng)絡(luò),尋找恰當(dāng)?shù)臄?shù)學(xué)工具去建模其中層特征所建模的信息量,并可視化其中層特征的信息分布,進(jìn)而解釋不同模型的性能差異。

  其實(shí),我一直希望去建模神經(jīng)網(wǎng)絡(luò)的特征表達(dá)能力,但是又一直遲遲不愿意下手去做。究其原因,無非是找不到一套優(yōu)美的數(shù)學(xué)建模方法。深度學(xué)習(xí)研究及其應(yīng)用很多已經(jīng)被人詬病為“經(jīng)驗(yàn)主義”與“拍腦袋”,我不能讓其解釋性算法也淪為經(jīng)驗(yàn)主義式的拍腦袋——不然解釋性工作還有什么意義。

  研究的難點(diǎn)在于對(duì)神經(jīng)網(wǎng)絡(luò)表達(dá)能力的評(píng)測(cè)指標(biāo)需要具備“普適性”和“一貫性”。首先,這里“普適性”是指解釋性指標(biāo)需要定義在某種通用的數(shù)學(xué)概念之上,保證與既有數(shù)學(xué)體系有盡可能多的連接,而與此同時(shí),解釋性指標(biāo)需要建立在盡可能少的條件假設(shè)之上,指標(biāo)的計(jì)算算法盡可能獨(dú)立于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和目標(biāo)任務(wù)的選擇。

  其次,這里的“一貫性”指評(píng)測(cè)指標(biāo)需要客觀的反應(yīng)特征表達(dá)能力,并實(shí)現(xiàn)廣泛的比較,比如

  診斷與比較同一神經(jīng)網(wǎng)絡(luò)中不同層之間語(yǔ)義信息的繼承與遺忘;

  診斷與比較針對(duì)同一任務(wù)的不同神經(jīng)網(wǎng)絡(luò)的任意層之間的語(yǔ)義信息分

  比較針對(duì)不同任務(wù)的不同神經(jīng)網(wǎng)絡(luò)的信息處理特點(diǎn)。

  具體來說,在某個(gè)NLP應(yīng)用中,當(dāng)輸入某句話x=[x1,x2,…,xn]到目標(biāo)神經(jīng)網(wǎng)絡(luò)時(shí),我們可以把神經(jīng)網(wǎng)絡(luò)的信息處理過程,看成對(duì)輸入單詞信息的逐層遺忘的過程。即,網(wǎng)絡(luò)特征每經(jīng)過一層傳遞,就會(huì)損失一些信息,而神經(jīng)網(wǎng)絡(luò)的作用就是盡可能多的遺忘與目標(biāo)任務(wù)無關(guān)的信息,而保留與目標(biāo)任務(wù)相關(guān)的信息。于是,相對(duì)于目標(biāo)任務(wù)的信噪比會(huì)逐層上升,保證了目標(biāo)任務(wù)的分類性能。

  我們提出一套算法,測(cè)量每一中層特征f中所包含的輸入句子的信息量,即H(X|F=f)。當(dāng)假設(shè)各單詞信息相互獨(dú)立時(shí),我們可以把句子層面的信息量分解為各個(gè)單詞的信息量H(X|F=f) = H(X1=x1|F=f) + H(X2=x2|F=f) + … + H(Xn=xn|F=f). 這評(píng)測(cè)指標(biāo)在形式上是不是與信息瓶頸理論相關(guān)?但其實(shí)兩者還是有明顯的區(qū)別的。信息瓶頸理論關(guān)注全部樣本上的輸入特征與中層特征的互信息,而我們僅針對(duì)某一特定輸入,細(xì)粒度地研究每個(gè)單詞的信息遺忘程度。

  其實(shí),我們可以從兩個(gè)不同的角度,計(jì)算出兩組不同的熵H(X|F=f)。(1)如果我們只關(guān)注真實(shí)自然語(yǔ)言的低維流形,那么p(X=x|F=f)的計(jì)算比較容易,可以將p建模為一個(gè)decoder,即用中層特征f去重建輸入句子x。(2)在這篇文章中,我們其實(shí)選取了第二個(gè)角度:我們不關(guān)注真實(shí)語(yǔ)言的分布,而考慮整個(gè)特征空間的分布,即x可以取值為噪聲。在計(jì)算p(X=x,F=f) = p(X=x) p(F=f|X=x)時(shí),我們需要考慮“哪些噪聲輸入也可以生成同樣的特征f”。舉個(gè)toy example,當(dāng)輸入句子是"How are you?"時(shí),明顯“are”是廢話,可以從“How XXX you?”中猜得。這時(shí),如果僅從真實(shí)句子分布出發(fā),考慮句子重建,那些話佐料(“are” “is” “an”)將被很好的重建。而真實(shí)研究選取了第二個(gè)角度,即我們關(guān)注的是哪些單詞被神經(jīng)網(wǎng)絡(luò)遺忘了,發(fā)現(xiàn)原來“How XYZ you?”也可以生成與“How are you?”一樣的特征。

  這時(shí),H(X|F=f)所體現(xiàn)的是,在中層特征f的計(jì)算過程中,哪些單詞的信息在層間傳遞的過程中逐漸被神經(jīng)網(wǎng)絡(luò)所忽略——將這些單詞的信息替換為噪聲,也不會(huì)影響其中層特征。這種情況下,信息量H(X|F=f)不是直接就可以求出來的,如何計(jì)算信息量也是這個(gè)課題的難點(diǎn)。具體求解的公式推導(dǎo)可以看論文,知乎上只放文字,不談公式。

  首先,從“普適性”的角度來看,中層特征中輸入句子的信息量(輸入句子的信息的遺忘程度)是信息論中基本定義,它只關(guān)注中層特征背后的“知識(shí)量”,而不受網(wǎng)絡(luò)模型參數(shù)大小、中層特征值的大小、中層卷積核順序影響。其次,從“一貫性”的角度來看,“信息量”可以客觀反映層間信息快遞能力,實(shí)現(xiàn)穩(wěn)定的跨層比較。如下圖所示,基于梯度的評(píng)測(cè)標(biāo)準(zhǔn),無法為不同中間層給出一貫的穩(wěn)定的評(píng)測(cè)。

2.png

  下圖比較了不同可視化方法在分析“reverse sequence”神經(jīng)網(wǎng)絡(luò)中層特征關(guān)注點(diǎn)的區(qū)別。我們基于輸入單詞信息量的方法,可以更加平滑自然的顯示神經(jīng)網(wǎng)絡(luò)內(nèi)部信息處理邏輯。

3.png

  下圖分析比較了不同可視化方法在診斷“情感語(yǔ)義分類”應(yīng)用的神經(jīng)網(wǎng)絡(luò)中層特征關(guān)注點(diǎn)的區(qū)別。我們基于輸入單詞信息量的方法,可以更加平滑自然的顯示神經(jīng)網(wǎng)絡(luò)內(nèi)部信息處理邏輯。

4.png

  基于神經(jīng)網(wǎng)絡(luò)中層信息量指標(biāo),分析不同神經(jīng)網(wǎng)絡(luò)模型的處理能力。我們分析比較了四種在NLP中常用的深度學(xué)習(xí)模型,即BERT, Transformer, LSTM, 和CNN。在各NLP任務(wù)中, BERT模型往往表現(xiàn)最好,Transformer模型次之。

  如下圖所示,我們發(fā)現(xiàn)相比于LSTM和CNN,基于預(yù)訓(xùn)練參數(shù)的BERT模型和Transformer模型往往可以更加精確地找到與任務(wù)相關(guān)的目標(biāo)單詞,而CNN和LSTM往往使用大范圍的鄰接單詞去做預(yù)測(cè)。

5.png

  進(jìn)一步,如下圖所示,BERT模型在預(yù)測(cè)過程中往往使用具有實(shí)際意義的單詞作為分類依據(jù),而其他模型把更多的注意力放在了and the is 等缺少實(shí)際意義的單詞上。

6.png

  如下圖所示,BERT模型在L3-L4層就已經(jīng)遺忘了EOS單詞,往往在第5到12層逐漸遺忘其他與情感語(yǔ)義分析無關(guān)的單詞。相比于其他模型,BERT模型在單詞選擇上更有針對(duì)性。

7.png

  我們的方法可以進(jìn)一步細(xì)粒度地分析,各個(gè)單詞的信息遺忘。BERT模型對(duì)各種細(xì)粒度信息保留的效果最好。

8.png

  十多年前剛剛接觸AI時(shí)總感覺最難的是獨(dú)立找課題,后來發(fā)現(xiàn)追著熱點(diǎn)還是很容易拍腦袋想出一堆新題目,再后來發(fā)現(xiàn)真正想做的課題越來越少,雖然AI領(lǐng)域中學(xué)者們的投稿量一直指數(shù)增長(zhǎng)。

  回國(guó)以后,身份從博后變成了老師,帶的學(xué)生增加了不少,工作量也翻倍了,所以一直沒有時(shí)間寫文章與大家分享一些新的工作,如果有時(shí)間還會(huì)與大家分享更多的研究,包括這篇文章后續(xù)的眾多算法。信息量在CV方向應(yīng)用的論文,以及基于這些技術(shù)衍生出的課題,我稍后有空再寫。

  作者介紹:

  張拳石,上海交通大學(xué)副教授。2009年獲北京大學(xué)機(jī)器智能學(xué)士學(xué)位,并于2011年和2014年獲得日本東京大學(xué)空間信息科學(xué)中心理科碩士和博士學(xué)位。2014年至2018年,他是加州大學(xué)洛杉磯分校的博士后研究員,師從朱松純教授。他的研究興趣涵蓋計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)。目前,他正在領(lǐng)導(dǎo)一個(gè)可解釋AI小組,相關(guān)主題包括可解釋神經(jīng)網(wǎng)絡(luò)、預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)解釋,以及無監(jiān)督/弱監(jiān)督學(xué)習(xí)。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請(qǐng)及時(shí)通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
国产亚洲一区在线播放| 国产精品视频一| 一区二区欧美在线观看| 欧美在线一二三四区| 日韩视频在线观看免费| 激情综合五月天| 国产一区二区成人| 欧美视频免费看| 欧美高清在线一区| 女人天堂亚洲aⅴ在线观看| 欧美在线免费观看| 亚洲欧美日韩中文播放| 亚洲在线成人精品| 亚洲一区二区黄色| 亚洲欧美日韩网| 一区二区三区四区五区视频| 日韩午夜视频在线观看| 午夜精品视频在线观看一区二区| 亚洲成人影音| 在线日韩欧美| 狠狠色狠狠色综合日日五| 国产精品国产成人国产三级| 午夜一区二区三区在线观看| 欧美成人午夜激情视频| 欧美午夜精品| 亚洲精品一区在线| 亚洲一区二区三区视频播放| 最新69国产成人精品视频免费| 国产婷婷精品| 麻豆精品视频在线| 久久国产精品久久久久久| 亚洲神马久久| 亚洲一区二区三区在线观看视频 | 国产精品尤物福利片在线观看| 国产精品蜜臀在线观看| 欧美视频中文字幕| 欧美日韩高清一区| 欧美四级在线观看| 欧美视频在线观看一区| 国产美女一区| 国产亚洲精品美女| 国产精品人人做人人爽| 国产视频在线观看一区| 国产中文一区二区三区| 国产偷自视频区视频一区二区 | 欧美日韩国产综合新一区| 亚洲激情在线激情| 亚洲激情图片小说视频| 国产精品美女久久久久aⅴ国产馆| 国产精品v欧美精品v日本精品动漫 | 日韩亚洲欧美一区| 在线午夜精品自拍| 夜夜嗨av一区二区三区网页| 亚洲中字在线| 欧美一区国产在线| 亚洲电影下载| 夜夜精品视频| 亚洲宅男天堂在线观看无病毒| 亚洲欧美日韩天堂| 毛片av中文字幕一区二区| 欧美国产精品日韩| 欧美日韩亚洲视频| 国产视频一区三区| 亚洲国产精品一区二区www| 99www免费人成精品| 欧美一区二区三区在线视频| 日韩一级欧洲| 亚洲欧美制服中文字幕| 亚洲精品在线看| 亚洲午夜日本在线观看| 欧美在线视频二区| 欧美了一区在线观看| 国产精品日韩一区| 国产一区二区三区在线免费观看 | 一区二区三区高清在线观看| 老司机免费视频久久| 欧美成人dvd在线视频| 欧美日韩另类综合| 欧美在线在线| 欧美另类99xxxxx| 国产欧美欧洲在线观看| 亚洲日本免费| 午夜精品久久久久久99热| 亚洲欧洲一区二区三区| 亚洲永久免费精品| 女生裸体视频一区二区三区| 欧美午夜精品久久久久久浪潮| 欧美女激情福利| 国产偷久久久精品专区| 亚洲欧洲精品一区二区| 日韩一级在线观看| 亚洲国产精品一区二区www在线| 亚洲午夜黄色| 久久女同精品一区二区| 国产精品一区一区| 亚洲欧洲午夜| 欧美一区二区三区日韩| 亚洲欧美日韩久久精品| 欧美成年人视频网站| 欧美精品一区二区在线观看 | 国产精品捆绑调教| 一本色道久久综合亚洲二区三区 | 亚洲欧美日产图| 猫咪成人在线观看| 国产精品日韩| 亚洲无线视频| 一本色道**综合亚洲精品蜜桃冫| 久久精品日产第一区二区三区| 国产精品免费观看在线| 亚洲福利视频一区二区| 一本久久a久久免费精品不卡| 亚洲精品乱码久久久久久按摩观| 久久爱www| 欧美日韩亚洲一区二区| 亚洲欧洲在线免费| 久久精品色图| 欧美在线视频观看免费网站| 国产精品一区二区女厕厕| 99亚洲一区二区| 日韩视频二区| 亚洲一区在线视频| 亚洲韩日在线| 欧美一区二区三区另类 | 国产女人aaa级久久久级| 9国产精品视频| av成人老司机| 欧美国产免费| 伊人色综合久久天天五月婷| 亚洲综合色噜噜狠狠| 亚洲专区在线| 欧美三级中文字幕在线观看| 最新69国产成人精品视频免费| 欧美一区二区三区四区在线观看| 亚洲综合三区| 国产精品二区在线| 洋洋av久久久久久久一区| 一区二区三区免费观看| 欧美黄色一级视频| 亚洲人体影院| 99视频在线观看一区三区| 欧美激情免费观看| 亚洲福利专区| 亚洲精品网站在线播放gif| 玖玖在线精品| 亚洲精品日日夜夜| 日韩五码在线| 欧美日韩在线第一页| 一区二区三区国产| 亚洲综合国产精品| 国产精品久久中文| 亚洲一区二区三区在线视频| 久久国产毛片| 国产真实乱子伦精品视频| 亚洲日产国产精品| 另类av导航| 黄色成人免费观看| 亚洲国产成人精品女人久久久| 香蕉久久国产| 精品不卡在线| 亚洲美女免费精品视频在线观看| 日韩手机在线导航| 亚洲精品国产视频| 欧美精品一区在线观看| 亚洲乱码国产乱码精品精天堂| 亚洲一区www| 国产精品萝li| 欧美一区二区三区播放老司机| 狂野欧美一区| 亚洲国产精品久久久久秋霞影院| 日韩视频欧美视频| 欧美天天在线| 亚洲美女精品一区| 欧美在线影院| 国内外成人免费视频| 最新国产成人在线观看| 国产精品高清在线| 亚洲黄一区二区| 国产精品九九久久久久久久| 亚洲第一久久影院| 国产精品播放| 亚洲人妖在线| 国产人妖伪娘一区91| 99在线精品观看| 国产综合欧美| 亚洲一二三级电影| 亚洲电影免费观看高清完整版在线| 亚洲女爱视频在线| 亚洲国产美女久久久久| 欧美自拍偷拍| 一本色道久久综合亚洲精品不卡| 久久婷婷久久一区二区三区| 在线午夜精品| 欧美激情一二三区| 午夜日韩视频| 欧美日韩一区二区三区视频 | 亚洲精选国产| 国产亚洲一区二区在线观看| 一级成人国产| 伊人成年综合电影网| 欧美伊人久久|