《電子技術應用》
您所在的位置:首頁 > 可編程邏輯 > 業界動態 > EMNLP 2018 | 為什么使用自注意力機制?

EMNLP 2018 | 為什么使用自注意力機制?

2018-09-17

近期,非循環架構(CNN、基于自注意力機制的 Transformer 模型)在神經機器翻譯任務中的表現優于 RNN,因此有研究者認為原因在于 CNN 和自注意力網絡連接遠距離單詞的路徑比 RNN 短。本文在主謂一致任務和詞義消歧任務上評估了當前 NMT 領域中最流行的三種模型:基于 CNN、RNN 和自注意力機制的模型,發現實驗結果與上述論斷并不一致。該論文已被 EMNLP 2018 接收。


多種不同架構對神經機器翻譯(NMT)都很有效,從循環架構 (Kalchbrenner and Blunsom, 2013; Bahdanau et al., 2015; Sutskever et al., 2014; Luong et al., 2015) 到卷積架構 (Kalchbrenner and Blunsom, 2013; Gehring et al., 2017),以及最近提出的完全自注意力(Transformer)模型 (Vaswani et al., 2017)。由于框架之間的對比主要依據 BLEU 值展開,因此弄清楚哪些架構特性對 BLEU 值有貢獻從本質上講是比較困難的。


循環神經網絡(RNN)(Elman, 1990) 可以輕松處理可變長度的輸入句子,因此是 NMT 系統的編碼器和解碼器的自然選擇。RNN 的大部分變體(如 GRU 和 LSTM)解決了訓練循環神經網絡的長距離依賴難題。Gehring 等人(2017)介紹了一種編碼器和解碼器都基于 CNN 的神經架構,并報告其 BLEU 值高于基于 RNN 的 NMT 模型。此外,該模型訓練期間對所有分詞的計算可以完全并行執行,提高了計算效率。Vaswani 等人(2017)提出 Transformer 模型,該模型完全基于注意力層,沒有卷積或循環結構。他們報告該模型在英語-德語和英語-法語翻譯取得了當前最優的 BLEU 值。但 BLEU 值指標比較粗糙,無法幫助觀察不同架構如何改善機器翻譯質量。


為了解釋 BLEU 值的提高,之前的研究進行了理論論證。Gehring 等人(2017)和 Vaswani 等人(2017)都認為神經網絡中共依賴因素(co-dependent element)之間的路徑長度會影響模型學習這些依賴關系的能力:路徑越短,模型學習此類依賴關系就越容易。這兩篇論文認為 Transformer 和 CNN 比 RNN 更擅長捕捉長距離依賴。


但是,這一斷言僅基于理論論證,并未經過實驗驗證。本文作者認為非循環網絡的其它能力可能對其強大性能貢獻巨大。具體來說,本文作者假設 BLEU 值的提高取決于具備強大語義特征提取能力的 CNN 和 Transformer。


該論文評估了三種流行的 NMT 架構:基于 RNN 的模型(下文用 RNNS2S 表示)、基于 CNN 的模型(下文用 ConvS2S 表示)和基于自注意力的模型(下文用 Transformer 表示)。受到上述關于路徑長度和語義特征提取關系的理論陳述的啟發,研究者在主謂一致任務(需要建模長距離依賴)和詞義消歧(WSD)任務(需要提取語義特征)上對三種模型的性能進行了評估。這兩項任務分別基于對照翻譯對(contrastive translation pair)測試集 Lingeval97 (Sennrich, 2017) 和 ContraWSD (Rios et al., 2017)。


本論文的主要貢獻如下:


檢驗了這一理論斷言:具備更短路徑的架構更擅長捕捉長距離依賴。研究者在建模長距離主謂一致任務上的實驗結果并沒有表明,Transformer 或 CNN 在這方面優于 RNN。

通過實驗證明 Transformer 中注意力頭的數量對其捕捉長距離依賴的能力有所影響。具體來說,多頭注意力對使用自注意力機制建模長距離依賴是必要的。

通過實驗證明 Transformer 擅長 WSD,這表明 Transformer 是強大的語義特征提取器。


論文:Why Self-Attention? A Targeted Evaluation of Neural Machine Translation Architectures

微信圖片_20180917220642.jpg


論文鏈接:https://arxiv.org/pdf/1808.08946.pdf


摘要:近期,非循環架構(卷積、自注意力)在神經機器翻譯任務中的表現優于 RNN。CNN 和自注意力網絡連接遠距離單詞的路徑比 RNN 短,有研究人員推測這正是其建模長距離依賴能力得到提高的原因。但是,這一理論論斷并未得到實驗驗證,對這兩種網絡的強大性能也沒有其他深入的解釋。我們假設 CNN 和自注意力網絡的強大性能也可能來自于其從源文本提取語義特征的能力。我們在兩個任務(主謂一致任務和詞義消歧任務)上評估了 RNN、CNN 和自注意力網絡的性能。實驗結果證明:1)自注意力網絡和 CNN 在建模長距離主謂一致時性能并不優于 RNN;2)自注意力網絡在詞義消歧方面顯著優于 RNN 和 CNN。

微信圖片_20180917220708.jpg

圖 1:NMT 中不同神經網絡的架構。


主謂一致


主謂一致任務是評估模型捕捉長距離依賴能力的最流行選擇,曾在多項研究中使用 (Linzen et al., 2016; Bernardy and Lappin, 2017; Sennrich, 2017; Tran et al., 2018)。因此,我們也使用該任務評估不同 NMT 架構的捕捉長距離依賴能力。

微信圖片_20180917222031.jpg

表 2:不同 NMT 模型的結果,包括在 newstest2014 和 newstest2017 上的 BLEU 值、在驗證集上的困惑度,以及長距離依賴的準確率。

微信圖片_20180917222056.jpg

圖 2:不同的 NMT 模型在主謂一致任務上的準確率。

微信圖片_20180917223037.jpg

圖 3:ConvS2S 模型和 RNNS2S 模型在不同距離處的結果。

微信圖片_20180917223100.jpg

圖 4: 在小型數據集上訓練的 Transformer 和 RNNS2S 模型的結果。


WSD


主謂一致任務上的實驗結果展示了 CNN 和 Transformer 在捕捉長距離依賴方面并沒有優于 RNN,即使 CNN 和 Transformer 中的路徑更短。這一發現與上文提到的理論斷言相悖。但是,從 BLEU 值來看,這些架構在實驗中的表現都很不錯。因此,我們進一步在 WSD 任務上評估這些架構來驗證我們的假設:非循環架構更擅長提取語義特征。

微信圖片_20180917223132.jpg

表 5:不同架構在 newstest 數據集和 ContraWSD 上的結果。PPL 指在驗證集上的困惑度。Acc 表示在測試集上的準確率。


本站內容除特別聲明的原創文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯系電話:010-82306118;郵箱:aet@chinaaet.com。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
久久久综合免费视频| 亚洲激情偷拍| 久久久天天操| 亚洲黄色av| 99精品视频一区| 午夜视频在线观看一区| 亚洲国产成人久久| 亚洲桃花岛网站| 亚洲韩国精品一区| 国产区欧美区日韩区| 久久久精品国产一区二区三区| 99精品国产在热久久| 久久国内精品自在自线400部| 日韩午夜电影av| 在线欧美日韩国产| 国产精品成人一区二区| 久久中文在线| 中文亚洲欧美| 欧美中文在线观看国产| 亚洲私人影院| 亚洲精品小视频在线观看| 精品1区2区3区4区| 国产日韩在线一区二区三区| 国产精品v亚洲精品v日韩精品 | 亚洲视频在线二区| 亚洲人成网站在线观看播放| 国产日韩精品一区二区三区在线 | 欧美亚洲成人精品| 欧美日韩国产在线播放| 女人色偷偷aa久久天堂| 久久影视精品| 久久久久国产精品一区三寸| 99精品国产热久久91蜜凸| 久久9热精品视频| 午夜在线一区| 99国产精品久久久| 亚洲高清在线播放| 欧美涩涩网站| 女女同性女同一区二区三区91| 欧美一区二区三区精品电影| 夜夜夜久久久| 一区二区三区欧美| 亚洲欧洲日韩综合二区| 亚洲第一区在线观看| 欧美一区二区三区电影在线观看 | 欧美人在线观看| 久久久人成影片一区二区三区| 久久国产精品色婷婷| 久久av一区二区三区漫画| 欧美有码在线观看视频| 欧美一区二区三区日韩视频| 欧美尤物一区| 亚洲精品久久久蜜桃 | 亚洲尤物在线视频观看| 亚洲成人资源网| 亚洲精品久久| 欧美一区激情视频在线观看| 欧美一区1区三区3区公司| 亚洲三级免费观看| 日韩午夜av| 宅男在线国产精品| 中日韩视频在线观看| 亚洲一区二区三区乱码aⅴ蜜桃女 亚洲一区二区三区乱码aⅴ | 正在播放亚洲| 午夜亚洲激情| av不卡在线看| 亚洲女优在线| 亚洲国产欧美精品| 夜久久久久久| 欧美亚洲综合另类| 欧美影院久久久| 免费人成精品欧美精品| 久久精品女人天堂| 欧美成人免费全部| 欧美午夜精品久久久久久孕妇 | 国产精品v日韩精品| 久久成人精品电影| 另类春色校园亚洲| 欧美日韩一区在线观看视频| 国产女精品视频网站免费 | 国产伦精品一区二区三区视频孕妇 | 亚洲精品在线看| 亚洲一区影院| 欧美一区日本一区韩国一区| 免费久久99精品国产自| 欧美日韩一区二区免费在线观看| 国产精品人人做人人爽人人添| 国内精品一区二区| 亚洲日产国产精品| 午夜精品久久久久久久99水蜜桃| 亚洲国产高清aⅴ视频| 亚洲视频福利| 久久久水蜜桃| 欧美日韩亚洲一区二区三区在线 | 午夜欧美大片免费观看| 麻豆91精品| 国产精品都在这里| 亚洲第一黄网| 午夜精品三级视频福利| 99精品国产在热久久婷婷| 欧美一区二区三区四区在线| 欧美精品激情在线观看| 激情成人综合| 亚洲图片欧美午夜| 亚洲美女黄色片| 久久九九国产精品| 国产欧美亚洲精品| 99精品国产高清一区二区| 久久狠狠久久综合桃花| 午夜一区二区三区在线观看| 欧美激情综合| 亚洲国产视频一区二区| 欧美一区二区三区男人的天堂| 亚洲女ⅴideoshd黑人| 欧美国产日韩精品免费观看| 国产日本亚洲高清| 亚洲免费视频一区二区| 99亚洲一区二区| 欧美伦理一区二区| 1769国产精品| 亚洲一区在线观看视频| 亚洲欧美国产高清| 欧美精品日韩一区| 亚洲精品网站在线播放gif| 亚洲国产精品视频一区| 久久久爽爽爽美女图片| 国产欧美日韩伦理| 一本色道久久99精品综合| 亚洲精品欧美日韩专区| 久久综合九色综合欧美就去吻 | 亚洲国产日韩欧美在线图片| 欧美在线视频观看| 国产精品欧美日韩| 一区二区三区精品视频| 99re6热在线精品视频播放速度| 免费看亚洲片| 精品999在线观看| 久久成人国产精品| 久久精品视频导航| 国产农村妇女毛片精品久久麻豆 | 亚洲一区二区精品| 亚洲一区三区在线观看| 美女脱光内衣内裤视频久久影院| 国产午夜亚洲精品不卡| 午夜精品美女久久久久av福利| 欧美一区二区精美| 国产欧美1区2区3区| 亚洲影音先锋| 性18欧美另类| 国产欧美精品在线播放| 亚洲欧美久久| 久久不射中文字幕| 国产一区二区福利| 久久精品成人| 麻豆91精品91久久久的内涵| 精品69视频一区二区三区| 亚洲第一区在线观看| 美女国产一区| 亚洲国产乱码最新视频| 亚洲精品一区二区在线| 欧美另类在线播放| 一区二区三区黄色| 亚洲欧美色婷婷| 国产欧美日韩麻豆91| 久久国产精品第一页| 久久久久综合网| 亚洲第一精品久久忘忧草社区| 亚洲国产婷婷香蕉久久久久久| 久久综合影视| 99国产精品久久久久老师| 亚洲专区欧美专区| 国产婷婷色一区二区三区在线| 亚洲电影毛片| 嫩草成人www欧美| 亚洲视频在线一区| 亚洲女ⅴideoshd黑人| 欧美日韩理论| 午夜精品区一区二区三| 鲁大师影院一区二区三区| 亚洲激情电影中文字幕| 中日韩美女免费视频网址在线观看 | 亚洲午夜电影| 久久夜色精品国产噜噜av| 在线视频观看日韩| 午夜久久久久久| 今天的高清视频免费播放成人| 91久久久亚洲精品| 国产区二精品视| 亚洲精品视频啊美女在线直播| 国产欧美日韩一区| 亚洲国产精品热久久| 久久一二三区| 亚洲欧美国产毛片在线| 免费在线成人av| 亚洲视频网站在线观看| 巨胸喷奶水www久久久免费动漫| 日韩视频在线免费观看| 久久国产福利| 亚洲国产影院| 欧美诱惑福利视频|