《電子技術應用》
您所在的位置:首頁 > 模擬設計 > 業界動態 > 超越谷歌BERT!依圖推出預訓練語言理解模型ConvBERT,入選NeurIPS 2020

超越谷歌BERT!依圖推出預訓練語言理解模型ConvBERT,入選NeurIPS 2020

2020-11-12
來源:機器之心
關鍵詞: 依圖科技 ConvBERT

  在本文中,本土獨角獸依圖科技提出了一個小而美的方案——ConvBERT,通過全新的注意力模塊,僅用 1/10 的訓練時間和 1/6 的參數就獲得了跟 BERT 模型一樣的精度。相比費錢的 GPT-3,這項成果可讓更多學者用更少時間去探索語言模型的訓練,也降低了模型在預測時的計算成本。本文已被 NeurIPS 2020 接收。

  今年 5 月,Open AI 發布了非常擅長「炮制出類似人類的文本」的 GPT-3,擁有破天荒的 1750 億參數,一時被業界視為最強大的人工智能語言模型。

  可是,訓練成本極高,難以普及,也成了 GPT-3 成功背后的不足。相對于通用的計算機視覺模型,語言模型復雜得多、訓練成本也更高,像 GPT-3 這種規模的模型只能是工業界才玩得起。

  深度學習「教父」LeCun 也說:「試圖通過擴大語言模型的規模來建造智能應用,就像建造一架飛往月球的飛機。你可能會打破高度記錄,但是登上月球其實需要一種完全不同的方法。」

  本土獨角獸依圖科技最近在人工智能界頂會 NeurIPS 上提出了一個小而美的方案——ConvBERT,通過全新的注意力模塊,僅用 1/10 的訓練時間和 1/6 的參數就獲得了跟 BERT 模型一樣的精度。相比費錢的 GPT-3,這項成果可讓更多學者用更少時間去探索語言模型的訓練,也降低了模型在預測時的計算成本。

  今年的 NeurIPS 創紀錄接收并審閱了來自全球的 9454 篇論文,但最終僅 1900 篇論文被收錄,錄用率為 20.09%,創歷年來接受率最低紀錄。問題不夠令人興奮者,不可收也。被收錄的論文更顯珍貴。

  依圖的這篇論文提出了基于區間的新型動態卷積,在自然語言理解中證明有效,在計算機視覺領域也可使用。這是依圖繼 ECCV 2020 之后,連續開放的第二項主干網絡基礎性改進工作。

微信圖片_20201112142142.png

  預訓練語言理解新模型 ConvBERT,超越谷歌 BERT

  最近 BERT 這一類基于預訓練的語言理解模型十分流行,也有很多工作從改進預訓練任務或者利用知識蒸餾的方法優化模型的訓練,但是少有改進模型結構的工作。依圖研發團隊從模型結構本身的冗余出發,提出了一種基于跨度的動態卷積操作,并基于此提出了 ConvBERT 模型。

  這一模型在節省了訓練時間和參數的情況下,在衡量模型語言理解能力的 GLUE benchmark 上相較于之前的 State-of-the-art 方法,如 BERT 和 ELECTRA,都取得了顯著的性能提升。其中 ConvBERT-base 模型利用比 ELECTRA-base 1/4 的訓練時間達到了 0.7 個點的平均 GLUE score 的提升。

微信圖片_20201112142144.png

  之前 BERT 這類模型主要通過引入自注意力機制來達到高性能,但是依圖團隊觀察到 BERT 模型中的 attention map 有著如下圖的分布(注:attention map 可以理解成詞與詞之間的關系),這表明了大多注意力主要集中在對角線,即主要學習到的是局部的注意力。這就意味著其中存在著冗余,也就是說很多 attention map 中遠距離關系值是沒有必要計算的。

微信圖片_20201112142147.png

  于是依圖團隊考慮用局部操作,如卷積來代替一部分自注意力機制,從而在減少冗余的同時達到減少計算量和參數量的效果。

  另一方面,考慮到傳統的卷積采用固定的卷積核,不利于處理語言這種關系復雜的數據,所以依圖提出了一種新的基于跨度的卷積,如下圖所示。原始的自注意力機制是通過計算每一對詞與詞之間的關系得到一個全局的 attention map。

  此前有文章提出過動態卷積,但其卷積的卷積核并不固定,由當前位置的詞語所代表的特征通過一個小網絡生成卷積核。這樣的問題就是在不同語境下,同樣的詞只能產生同樣的卷積核。但是同樣的詞在不同語境中可以有截然不同的意思,所以這會大大限制網絡的表達能力。

  基于這一觀察,依圖提出了基于跨度的動態卷積,通過接收當前詞和前后的一些詞作為輸入,來產生卷積核進行動態卷積,這在減少了自注意力機制冗余的同時,也很好地考慮到了語境和對應卷積核的多樣性。

微信圖片_20201112142149.png

  基于跨度的動態卷積,同時減少原模型冗余和參數量

  具體而言,引入了一個輕量卷積的運算操作,

微信圖片_20201112142153.png

  其中為輸入的特征,而則是卷積核,k 為卷積核的大小。輕量卷積的作用是將輸入的每個詞對應的特征附近的 k 個特征加權平均生成輸出。在此基礎上,之前提到的動態卷積可以寫作

2.png

  此處卷積核是由對應的詞的特征經過線性變換和 softmax 之后產生的。為了提升卷積核對于同一詞在不同語境下的多樣性,依圖提出了如下的動態卷積

3.png

  此處,輸入 X 先經過線性變換生成和,同時經過卷積生成基于跨度的,由經過線性變換以及 softmax 來產生卷積核與進一步做輕量卷積,從而得到最終的輸出。

  在基于跨度的卷積的基礎上,依圖將其與原始的自注意力機制做了一個結合,得到了如圖所示的混合注意力模塊。

微信圖片_20201112142202.png

  可以看到,被標紅的部分是基于跨度的卷積模塊,而另一部分則是原始的自注意力模塊。其中原始的自注意力機制主要負責刻畫全局的詞與詞之間的關系,而局部的聯系則由替換進來的基于跨度的卷積模塊刻畫。

  從下圖 BERT 和 ConvBERT 中的自注意力模塊的 attention map 可視化圖對比也可以看出,不同于原始的集中在對角線上的 attention map,ConvBERT 的 attention map 不再過多關注局部的關系,而這也正是卷積模塊減少冗余的作用體現。

微信圖片_20201112142205.png

  對比 state-of-the-art 模型,ConvBERT 所需算力更少、精度更高

  為分析不同卷積的效果,依圖使用不同的卷積得到了如下表所示的結果

微信圖片_20201112142208.png

  可以看出在模型大小一致的情況下,傳統卷積的效果明顯弱于動態卷積。并且,本文提出的基于跨度的動態卷積也比普通的動態卷積擁有更好的性能。

  同時,依圖也對不同的卷積核大小做了分析。實驗發現,在卷積核較小的情況下,增大卷積核大小可以有效地提高模型性能。但是當卷積核足夠大之后提升效果就不明顯了,甚至可能會導致訓練困難從而降低模型的性能。

微信圖片_20201112142211.png

  最后,依圖將提出的 ConvBERT 模型在不同的大小設定下與 state-of-the-art 模型進行了對比。值得注意的是,對小模型而言,ConvBERT-medium-small 達到了 81.1 的 GLUE score 平均值,比其余的小模型以及基于知識蒸餾的壓縮模型性能都要更好,甚至超過了大了很多的 BERT-base 模型。而在大模型的設定下,ConvBERT-base 也達到了 86.4 的 GLUE score 平均值,相比于計算量是其 4 倍的 ELECTRA-base 還要高出 0.7 個點。

微信圖片_20201112142213.png

  更多實驗以及算法細節可參考原文:

  原文鏈接:https://arxiv.org/pdf/2008.02496.pdf

  代碼地址:https://github.com/yitu-opensource/ConvBert


本站內容除特別聲明的原創文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯系電話:010-82306118;郵箱:aet@chinaaet.com。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
欧美一区二区三区在| 99国产精品久久久| 亚洲精品女av网站| 狠狠色香婷婷久久亚洲精品| 国产精品一二| 国产精品大片| 国产精品久久久久久亚洲毛片| 欧美日韩国产成人在线| 免费欧美在线| 免费视频一区| 久久综合久久综合九色| 久久婷婷麻豆| 久久―日本道色综合久久| 久久丁香综合五月国产三级网站| 午夜在线a亚洲v天堂网2018| 亚洲欧美综合v| 午夜亚洲影视| 久久大综合网| 久久美女性网| 免费成人在线观看视频| 欧美va日韩va| 欧美日本精品| 欧美午夜www高清视频| 欧美日韩一区二区免费视频| 欧美日韩免费一区二区三区视频| 欧美日韩国产免费| 欧美日韩国产大片| 欧美午夜性色大片在线观看| 欧美性事在线| 国产精品一香蕉国产线看观看| 国产精品视区| 国产亚洲欧美日韩在线一区| 黄色成人在线观看| 在线观看欧美视频| 亚洲靠逼com| 亚洲一二三级电影| 欧美一区二区三区视频在线观看 | 欧美一区二区成人6969| 欧美中文在线视频| 久久久亚洲影院你懂的| 欧美成人免费大片| 欧美日韩综合网| 国产欧美精品日韩| 激情五月***国产精品| 亚洲精品网址在线观看| 亚洲影视在线| 亚洲国产裸拍裸体视频在线观看乱了| 亚洲日本中文| 亚洲专区一区二区三区| 久久精品99久久香蕉国产色戒| 牛牛国产精品| 国产精品ⅴa在线观看h| 国产中文一区| 亚洲伦理中文字幕| 午夜影院日韩| 亚洲激情欧美激情| 亚洲综合色网站| 久久亚洲综合色| 欧美日韩精品免费看 | 亚洲伊人一本大道中文字幕| 亚洲第一网站免费视频| 一本色道久久综合亚洲精品按摩 | 国产麻豆综合| 亚洲国产激情| 亚洲欧美在线一区二区| 亚洲欧洲精品一区二区三区波多野1战4| 一区二区三区四区五区视频| 欧美专区福利在线| 欧美欧美在线| 国产色产综合产在线视频| 最新成人av网站| 欧美一区二区精品| 一区二区三区欧美成人| 久久久久久久91| 国产精品白丝jk黑袜喷水| 激情综合色综合久久| 亚洲色诱最新| 亚洲精品欧美极品| 欧美在线影院在线视频| 欧美日韩一区二区三区四区在线观看 | 亚洲日本视频| 欧美中文字幕久久| 亚洲男人的天堂在线| 欧美国产日韩一区二区在线观看 | 欧美在线一级视频| 亚洲一区二区三区乱码aⅴ蜜桃女| 久久久人成影片一区二区三区观看| 欧美日韩午夜在线视频| 在线欧美小视频| 久久av免费一区| 午夜精品亚洲一区二区三区嫩草| 欧美精品手机在线| 在线免费日韩片| 久久激情网站| 欧美一区成人| 国产精品国色综合久久| 91久久久在线| 91久久精品一区二区别| 久久精品一本| 国产日韩在线播放| 亚洲午夜国产一区99re久久| 一区二区三区三区在线| 欧美国产1区2区| 在线不卡中文字幕| 久久电影一区| 久久久久久久一区二区三区| 国产精品乱码久久久久久| 99精品国产一区二区青青牛奶| 日韩视频第一页| 欧美国产视频一区二区| 一色屋精品视频在线看| 久久精品国产2020观看福利| 久久久久国产精品午夜一区| 国产丝袜一区二区| 欧美一二三区精品| 久久国产精品99久久久久久老狼| 国产精品三级久久久久久电影| 亚洲五月婷婷| 亚洲女同精品视频| 国产精品日韩二区| 亚洲欧美国产va在线影院| 午夜在线电影亚洲一区| 国产精品老牛| 午夜精品久久久久久久| 久久狠狠亚洲综合| 国产在线欧美日韩| 久久精品国产成人| 老司机一区二区| 亚洲动漫精品| 日韩图片一区| 欧美日韩一区自拍| 亚洲网站在线播放| 欧美亚洲一区二区在线| 国产精品一二三四| 欧美在线看片| 免费在线观看成人av| 亚洲国产免费看| 一本色道久久88亚洲综合88| 欧美日韩精品伦理作品在线免费观看| 99riav国产精品| 午夜欧美精品| 国模吧视频一区| 亚洲日韩第九十九页| 欧美日韩免费在线观看| 亚洲一区二区在线免费观看视频| 午夜精品理论片| 国内精品美女av在线播放| 亚洲黄页一区| 欧美日韩不卡合集视频| 亚洲五月婷婷| 久久久久成人网| 亚洲国产成人精品女人久久久 | 久久久人成影片一区二区三区| 永久免费精品影视网站| 夜夜嗨av一区二区三区中文字幕| 欧美涩涩视频| 亚洲欧美日韩一区在线观看| 久久女同互慰一区二区三区| 亚洲国产欧美日韩另类综合| 亚洲一区二区免费在线| 国产伪娘ts一区| 亚洲精品中文字幕女同| 欧美色区777第一页| 性欧美超级视频| 欧美国产在线观看| 亚洲一二三区在线| 久久这里有精品视频 | 在线亚洲精品| 久久久最新网址| 国产免费观看久久黄| 亚洲黄一区二区| 国产精品久久久久999| 久久国产天堂福利天堂| 欧美日韩免费观看一区三区 | 国产视频一区在线| 亚洲精品日本| 国产日韩欧美| 一区二区日韩| 韩国福利一区| 亚洲女人天堂av| 亚洲国产cao| 欧美一区二区三区在线免费观看| 精品91在线| 午夜一级久久| 亚洲精品日韩欧美| 久久中文字幕一区| 亚洲图中文字幕| 欧美激情国产精品| 欧美在线看片| 国产精品免费aⅴ片在线观看| 亚洲国产一区二区三区在线播| 欧美视频在线观看视频极品 | 欧美激情视频一区二区三区在线播放| 亚洲午夜精品久久久久久浪潮| 榴莲视频成人在线观看| 亚洲在线播放电影| 欧美日韩国产三区| 亚洲黄一区二区三区| 国产日韩欧美亚洲| 亚洲一区二区三区视频播放|