《電子技術應用》
您所在的位置:首頁 > 可編程邏輯 > 業界動態 > 前沿 | CNN取代RNN?當序列建模不再需要循環網絡

前沿 | CNN取代RNN?當序列建模不再需要循環網絡

2018-08-07

在過去幾年中,雖然循環神經網絡曾經一枝獨秀,但現在自回歸 Wavenet 或 Transformer 等模型在各種序列建模任務中正取代 RNN。機器之心在 GitHub 項目中曾介紹用于序列建模的 RNN 與 CNN,也介紹過不使用這兩種網絡的 Transformer。而本文主要關注循環網絡與前饋網絡在序列建模中有什么差別,以及到底什么時候選擇卷積網絡替代循環網絡比較好。


機器之心 GitHub 項目:從循環到卷積,探索序列建模的奧秘 

基于注意力機制,機器之心帶你理解與訓練神經機器翻譯系統 


在這篇博文中,我們來探討循環網絡模型和前饋模型之間的取舍。前饋模型可以提高訓練穩定性和速度,而循環模型表達能力更勝一籌。有趣的是,額外的表現力似乎并沒有提高循環模型的性能。


一些研究團隊已經證明,前饋網絡可以達到最佳循環模型在基準序列任務上取得的結果。這種現象為理論研究提供了一個有趣的問題:


為什么前饋網絡能夠在不降低性能的前提下取代循環神經網絡?什么時候可以取代?


我們討論了幾個可能的答案,并強調了我們最近的研究《When Recurrent Models Don't Need To Be Recurrent》,這項研究從基本穩定性的角度給出了解釋。


兩個序列模型的故事


循環神經網絡


循環模型的眾多變體都具有類似的形式。該模型憑借狀態 h_t 梳理過去的輸入序列。在每個時間步 t,根據以下等式更新狀態:

微信圖片_20180807191836.jpg



其中 x_t 是時刻 t 的輸入,φ 是可微分映射,h_0 是初始狀態。在一個最原始循環神經網絡中,該模型由矩陣 W 和 U 參數化,并根據下式更新狀態:

微信圖片_20180807191901.jpg



實踐中,長短期記憶網絡(LSTM)更常用。不管哪種情況,進行預測時,都將狀態傳遞給函數 f,模型預測 y_t = f(h_t)。由于狀態 h_t 是包含所有過去輸入 x_0,...,x_t 的函數,因此預測 y_t 也取決于整個歷史輸入 x_0,...,x_t。


循環模型可用圖形表示如下。


微信圖片_20180807191920.jpg

循環模型可以使用反向傳播擬合數據。然而,從時間步 T 到時間步 0 反向傳播的梯度通常需要大量難以滿足的內存,因此,事實上每個循環模型的代碼實現都會進行截斷處理,并且只反向傳播 k 個時間步的梯度。

微信圖片_20180807192053.jpg



按照這個配置,循環模型的預測仍然依賴于整個歷史輸入 x_0,…,x_T。然而,目前尚不清楚這種訓練過程對模型學習長期模式的能力有何影響,特別是那些需要 k 步以上的模式。


自回歸、前饋模型


自回歸(autoregressive)模型僅使用最近的 k 個輸入,即 x_t-k + 1,...,x_t 來預測 y_t,而不是依賴整個歷史狀態進行預測。這對應于強條件獨立性假設。特別是,前饋模型假定目標僅取決于 k 個最近的輸入。谷歌的 WaveNet 很好地說明了這個通用原則。


微信圖片_20180807192359.gif



與 RNN 相比,前饋模型的有限上下文意味著它無法捕獲超過 k 個時間步的模式。但是,使用空洞卷積等技術,可以使 k 非常大。


為何關注前饋模型?


一開始,循環模型似乎是比前饋模型更靈活、更具表現力的模型。畢竟,前饋網絡提出了強條件獨立性假設,而循環模型并沒有加上這樣的限制。不過即使前饋模型的表現力較差,仍有幾個原因使得研究者可能更傾向于使用前饋網絡。


并行化:卷積前饋模型在訓練時更容易并行化,不需要更新和保留隱藏狀態,因此輸出之間沒有順序依賴關系。這使得我們可以在現代硬件上非常高效地實現訓練過程。

可訓練性:訓練深度卷積神經網絡是深度學習的基本過程,而循環模型往往更難以訓練與優化。此外,為了有效并可靠地訓練深度前饋網絡,開發人員在設計架構和軟件開發上已經付出了巨大的努力。


推理速度:在某些情況下,前饋模型可以更輕量,并且比類似的循環系統更快地執行推理。在其他情況下,特別是對于長序列問題,自回歸推理是一個很大的瓶頸,需要大量的工程工作或聰明才智去克服。


前饋模型可以比循環模型表現更好


雖然看起來前饋模型的可訓練性和并行化是以降低模型準確度為代價的,但是最近有一些例子表明,前饋網絡在基準任務上實際上可以達到與循環網絡相同的精度。


語言建模。在語言建模中,目的是在給定所有當前單詞的情況下預測下一個單詞。前饋模型僅使用 k 個最近的單詞進行預測,而循環模型可能會使用整個文檔。門控卷積語言模型是一種可與大型 LSTM 基準模型競爭的前饋自回歸模型。盡管截斷長度 k = 25,但該模型在 Wikitext-103 的基準測試上表現優于大型 LSTM 模型,該基準測試用于測試善于捕獲長期依賴關系的模型。在 Billion Word Benchmark 上,該模型比最大的 LSTM 略差,但訓練速度更快,占用的資源也更少。


機器翻譯。機器翻譯的目標是將英語句子映射到其它語種句子,例如英語轉法語。前饋模型僅使用句子的 k 個單詞進行翻譯,而循環模型可以利用整個句子。在深度學習中,谷歌神經機器翻譯等模型最開始基于 LSTM 與注意力機制進行序列建模,后來大家使用全卷積網絡進行序列建模、使用 Transformer 構建大型翻譯系統。

微信圖片_20180807192423.gif

語音合成。在語音合成領域,研究者試圖產生逼真的人類語音。前饋模型僅限于過去的 k 個樣本,而循環模型可以使用所有歷史樣本。截止本稿發布,前饋自回歸 WaveNet 是對 LSTM-RNN 模型的重大改進。


延伸閱讀。最近,Bai 等人提出了一種利用空洞卷積的通用前饋模型,并表明它在從合成復制任務到音樂生成的任務中優于循環基準模型。機器之心在《從循環到卷積,探索序列建模的奧秘》這一篇文章中就解析過這一模型。


前饋模型怎么能超越循環模型?


在上面的示例中,前饋網絡能實現與循環網絡相同或更好的結果。這很令人困惑,因為循環模型似乎更先進。Dauphin 等人對這種現象給出了一種解釋:


對于語言建模而言,循環模型提供的無限長的上下文信息并非絕對必要。


換句話說,你可能不需要大量的上下文信息求平均來完成預測任務。最近的理論工作提供了一些支持這種觀點的證據。


Bai 等人給出了另一種解釋:


RNN 的「無限記憶」優勢在實踐中基本上不存在。


正如 Bai 等人的報告中說的一樣,即使在明確需要長期上下文的實驗中,RNN 及其變體也無法學習長序列。在 Billion Word Benchmark 上,一篇精彩的 Google 學術報告表明,記憶 n = 13 字上下文的 LSTM n-gram 模型與記憶任意長上下文的 LSTM 表現無異。


這一證據使我們猜想:在實踐中訓練的循環模型實際上是前饋模型。這可能發生,因為截斷的沿時間反向傳播不能學習比 k 步更長的模式,因為通過梯度下降訓練的模型沒有長期記憶。


在我們最近的論文中,我們研究了使用梯度下降訓練的循環模型和前饋模型之間的差距。我們表示如果循環模型是穩定的(意味著沒有梯度爆炸),那么循環模型的訓練或推斷過程都可以通過前饋網絡很好地逼近。換句話說,我們證明了通過梯度下降訓練的前饋和穩定循環模型在測試上是等價的。當然,并非所有實踐中訓練的模型都是穩定的。我們還給出了經驗證據,可以在不損失性能的情況下對某些循環模型施加穩定性條件。


總結


盡管已經進行了一些初步的嘗試,但要理解為什么前饋模型可以與循環模型競爭,并闡明序列模型之間如何權衡,仍有許多工作要做。在通用序列基準測試中到底需要多少內存?截斷 RNN(可以看做是前饋模型)和流行的卷積模型之間的表現力權衡是什么?為什么前饋網絡在實踐中的性能和不穩定的 RNN 一樣好?


回答這些問題是嘗試建立一個既可以解釋我們當前方法的優勢和局限性,也可以指導如何在具體環境中如何選擇不同模型的理論。


本站內容除特別聲明的原創文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯系電話:010-82306118;郵箱:aet@chinaaet.com。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
一区二区三区欧美激情| 欧美巨乳在线观看| 日韩亚洲欧美在线观看| 亚洲国产精品成人精品| 久久爱www.| 欧美亚洲自偷自偷| 香蕉免费一区二区三区在线观看 | 日韩亚洲成人av在线| 久久成人在线| 韩国av一区二区三区四区| 国产日韩综合一区二区性色av| 国产精品一区二区女厕厕| 国产精品美女久久久久久免费| 欧美午夜精品久久久久免费视| 欧美深夜福利| 国产精品国产自产拍高清av| 国产精品护士白丝一区av| 国产精品国产三级国产aⅴ9色| 国产精品久久久久久久7电影| 国产精品日韩| 国产亚洲精品久| 国模叶桐国产精品一区| 激情久久久久久| 在线观看日韩www视频免费| 亚洲成人在线视频网站| 亚洲人体影院| 亚洲性视频网址| 香蕉免费一区二区三区在线观看 | 国产精品网曝门| 国产有码在线一区二区视频| 伊人成人开心激情综合网| 亚洲黑丝一区二区| 99成人在线| 亚洲欧美日韩精品久久久| 久久激情五月激情| 亚洲精品久久久久久一区二区| 一本到高清视频免费精品| 午夜精品久久久久| 久久最新视频| 欧美日韩亚洲国产精品| 国产欧美在线看| 樱花yy私人影院亚洲| 99精品欧美| 亚洲欧美精品伊人久久| 欧美在线播放高清精品| 日韩视频在线观看| 欧美一区二区精美| 免费成人毛片| 国产精品黄页免费高清在线观看| 国产午夜精品全部视频在线播放| 尤物在线观看一区| 宅男噜噜噜66一区二区66| 欧美一区二区精品| 99国内精品| 久久精品视频一| 一区二区三区日韩| 欧美中文字幕不卡| 亚洲图片欧美日产| 久久午夜精品一区二区| 欧美日韩国产专区| 国产日韩欧美二区| 亚洲精品国产精品乱码不99| 亚洲欧美国产精品va在线观看 | 亚洲一区二区三区视频| 久久久久一区二区三区| 欧美日韩国产亚洲一区| 韩国一区电影| 一区二区欧美精品| 亚洲国产日韩欧美一区二区三区| 亚洲淫片在线视频| 欧美刺激午夜性久久久久久久| 国产精品久久久久一区二区| 在线免费观看一区二区三区| 亚洲欧美激情精品一区二区| 夜夜嗨av一区二区三区| 久久夜色精品国产亚洲aⅴ | 欧美一区二区私人影院日本| 一区二区91| 裸体素人女欧美日韩| 国产精品入口夜色视频大尺度| 久久亚洲私人国产精品va| 欧美激情视频一区二区三区免费 | 在线免费观看一区二区三区| 亚洲欧美国产精品va在线观看| 亚洲人成网站999久久久综合| 亚洲欧美国产77777| 99xxxx成人网| 免费在线欧美黄色| 国产日产欧美a一级在线| 99视频国产精品免费观看| 亚洲国产精品久久久久婷婷884| 欧美一区二区高清| 欧美午夜视频在线观看| 亚洲欧洲三级电影| 亚洲国产精品久久久久秋霞蜜臀| 久久国产精品99精品国产| 欧美午夜免费电影| 日韩亚洲精品电影| 亚洲人成7777| 久久在线免费观看| 国产午夜精品在线观看| 亚洲综合久久久久| 亚洲制服丝袜在线| 欧美日韩免费一区二区三区| 亚洲人成啪啪网站| 亚洲精品免费看| 欧美sm视频| 亚洲成色999久久网站| 亚洲国产精品一区在线观看不卡| 久久激情中文| 国产亚洲女人久久久久毛片| 午夜国产欧美理论在线播放| 午夜精品一区二区三区电影天堂| 国产精品高潮呻吟久久av无限| 一区二区久久久久| 亚洲视频碰碰| 欧美日韩在线观看一区二区| 亚洲精品男同| 中日韩视频在线观看| 欧美日韩在线播放三区四区| 亚洲最新中文字幕| 亚洲伊人一本大道中文字幕| 国产精品成人午夜| 亚洲一区二区成人在线观看| 午夜视频精品| 国产香蕉97碰碰久久人人| 欧美一区二区三区四区高清| 久久精品一二三| 极品日韩av| 亚洲激情电影中文字幕| 欧美黄在线观看| 日韩视频在线观看国产| 亚洲午夜激情网站| 国产精品视频你懂的| 欧美亚洲视频一区二区| 久久男人资源视频| 亚洲高清成人| 国产一区二区无遮挡| 久久久久久久久久久成人| 国产麻豆日韩欧美久久| 欧美一区二区视频97| 嫩草影视亚洲| 亚洲三级影院| 亚洲欧美日韩成人| 韩国女主播一区| 日韩亚洲欧美成人一区| 国产精品国内视频| 久久国产精品一区二区三区四区| 免费毛片一区二区三区久久久| 日韩视频在线一区二区三区| 午夜精品www| 一区二区三区无毛| 一区二区三区四区五区视频 | 国产精品国产三级国产a| 先锋影音久久| 麻豆久久久9性大片| 日韩一区二区精品视频| 欧美怡红院视频| 在线观看成人av电影| 国产精品99久久久久久人| 国产欧美日韩精品专区| 亚洲国产欧美日韩| 欧美午夜欧美| 亚洲高清视频一区| 欧美日韩亚洲三区| 欧美在线三区| 欧美日韩免费观看一区二区三区| 午夜国产欧美理论在线播放 | 99在线观看免费视频精品观看| 欧美一区二区三区的| 亚洲国产高清高潮精品美女| 亚洲影院免费| 亚洲高清在线观看一区| 午夜精品久久久久影视 | 欧美视频一区二区| 久久精品道一区二区三区| 欧美日韩国产成人| 欧美在线视频二区| 欧美日韩一区二区三区在线观看免| 性xx色xx综合久久久xx| 欧美精品免费视频| 午夜精品久久久久久久99黑人| 欧美激情亚洲视频| 欧美一区二区网站| 欧美视频免费看| 亚洲精品国产精品国产自| 国产日韩精品一区二区| 夜夜嗨av一区二区三区免费区| 国内自拍一区| 先锋影音网一区二区| 好看不卡的中文字幕| 亚洲精品午夜| 国外成人在线视频网站| 亚洲欧美精品一区| 亚洲人成在线观看一区二区| 久久久另类综合| 亚洲性av在线| 欧美日韩情趣电影| 亚洲精品一二| 黑人一区二区三区四区五区|