一区二区在线观看视频,精品动漫一区,国产亚洲精品美女久久久m

微軟推出全新通用預訓練方法——MASS，效果比 BERT 和 GPT 更好？

日期： 2019-06-28

關鍵詞： 微軟 BERT GPT

　　據報道：自 2018 年以來，預訓練無疑是自然語言處理（NLP）領域中最熱門的研究課題之一。通過利用 BERT、GPT 和 XLNet 等通用語言模型，該領域的研究者們在自然語言理解方面已經取得了許多重大的突破。然而，對于序列到序列的自然語言生成任務，這些主流的預訓練方法并沒有帶來顯著的改進，對此，微軟亞洲研究院提出了一個全新的通用預訓練方法——MASS，在該任務中可以得到比 BERT 和 GPT 更好的效果。

　　前言

　　BERT 和 XLNet 在自然語言理解任務（例如：情感分類、自然語言推理和 SQuAD 閱讀理解）方面取得了巨大成功。然而， NLP 領域除了自然語言理解任務之外，還存在很多序列到序列的語言生成任務，例如機器翻譯、文本摘要生成、對話生成、問答、文本風格轉換等。對于這些任務，使用編碼器-注意力-解碼器框架是主流方法。

　　圖 1 編碼器 - 注意力 - 解碼器框架

　　如圖 1 所示，編碼器將源序列 X 作為輸入并將其轉換為隱藏表示的序列，然后解碼器通過注意力機制從編碼器中抽象出隱藏表示的序列信息，并自動生成目標序列文本 Y。

　　BERT 和 XLnet 通常是對一個編碼器進行自然語言理解的預訓練；而 GPT 則是對一個解碼器進行語言建模的預訓練。當利用 BERT 和 GPT 進行序列到序列的語言生成任務時，我們通常需要對編碼器和解碼器分別進行預訓練。在這種情況下，編碼器 - 注意力 - 解碼器框架和注意力機制并沒有得到聯合訓練。然而，注意力機制在這類任務中極為重要，一旦缺失便會導致 BERT 和 GPT 無法達到最佳性能。

　　一種新的預訓練方法

　　針對序列到序列的自然語言生成任務，微軟亞洲研究院的機器學習小組提出了一種新的預訓練方法，即掩蔽的序列到序列預訓練（MASS：Masked Sequence to Sequence Pre-Training）。MASS 隨機掩蔽一個長度為 k 的句子片段，并通過編碼器 - 注意力 - 解碼器框架預測這一被掩蔽的片段。

　　圖 2 MASS 框架

　　如圖 2 所示，編碼器端的第 3-6 個標記被掩蔽，而在解碼器端，僅有被掩蔽的標記被預測出來，而其他標記則被掩蔽。

　　MASS 預訓練具有以下優勢：

　　解碼器端的其他標記（在編碼器端未被掩蔽的標記）被掩蔽，從而推動解碼器提取更多信息以幫助預測連續句子片段，促進編碼器-注意力-解碼器結構的聯合訓練；

　　為了給解碼器提供更多有用的信息，編碼器被強制提取未被掩蔽的標記的含義，這可以提高編碼器理解源序列文本的能力；

　　解碼器被設計用以預測連續的標記（句子片段），這可以提升解碼器的語言建模能力。

　　統一的預訓練框架

　　MASS 有一個重要的超參數 k（被掩蔽的片段的長度）。通過調整 k 值，MASS 可以將 BERT 中掩蔽的語言建模和 GPT 中的標準語言建模結合起來，從而將 MASS 擴展成一個通用的預訓練框架。

　　當 k = 1 時，根據 MASS 的設計，編碼器端的一個標記被掩蔽，而解碼器端則會預測出該掩蔽的標記，如圖 3 所示。解碼器端沒有輸入信息，因而 MASS 等同于 BERT 中掩蔽的語言模型。

　　圖 3 k = 1時，編碼器端一個標記被掩蔽，而解碼器端則會預測出該掩蔽的標記

　　當 k = m（m 是序列的長度）時，在 MASS 中，編碼器端的所有標記都被掩蔽，而解碼器端會預測所有的標記，如圖 4 所示。解碼器端無法從編碼器端提取任何信息，MASS 等同于 GPT 中的標準語言模型。

　　圖 4 k = m 時，編碼器端的所有詞都被掩蔽，而解碼器端會預測所有的標記，等同于 GPT 中的標準語言模型

　　不同 k 值下 MASS 的概率公式如表 1 所示，其中 m 是序列的長度，u 和 v 分別是掩蔽片段的起始和終止位置，代表從位置 u 到 v 的標記都被掩蔽的序列。可以看出，當 k = 1 或 m 時，MASS 的概率公式等同于 BERT 中的被掩蔽的語言模型和 GPT 中的標準語言模型。

　　表 1 在不同 k 值下 MASS 的概率公式

　　研究人員通過實驗來分析了在不同 k 值下的 MASS 性能，如圖 5 所示：

　　圖 5 在訓練前和微調階段的各種掩蔽長度 k 下 MASS 的表現，其中包括 a) 英語句子預訓練模型的PPL b) WMT13 英語-法語翻譯的法語句子 c) WMT13 無監督英語-法語翻譯的 BLEU 值 d) 文本摘要生成的 ROUGE 值 e) 對話生成的PPL

　　當 k 等于句子長度的一半時，下游任務可以達到其最佳性能。掩蔽句子中一半的詞可以很好地平衡編碼器和解碼器的預訓練部分。如果預訓練更偏向編碼器端（k = 1，即 BERT）或更偏向解碼器端（k = m，LM / GPT），則無法實現最優的性能，這也表現出了 MASS 在序列到序列的語言生成任務中的優勢。

　　序列到序列的語言生成任務測試

　　預訓練

　　值得注意的是，MASS 僅需要無監督的單語數據進行預訓練（例如 WMT News Crawl Data、Wikipedia Data 等）。MASS 支持跨語言任務（例如機器翻譯）和單語任務（例如文本摘要生成、對話生成）。在對英語-法語翻譯等跨語言任務進行預訓練時，研究人員可以在一個模型中同時進行英語-英語和法語-法語的預訓練，并使用附加的語言嵌入向量來區分語言。在無監督的機器翻譯、低資源機器翻譯、文本摘要生成和對話生成四個領域，研究人員對 MASS 進行了微調，以驗證其有效性。

　　無監督機器翻譯

　　關于無監督機器翻譯任務，研究人員將 MASS 與之前的方法進行了比較，包括以前最先進的方法 Facebook XLM。XLM 使用了由 BERT 創建的掩蔽預訓練語言模型，以及標準語言模型來分別預訓練編碼器和解碼器。

　　結果如表 2 所示，MASS 在 WMT14 英語-法語、WMT16 英語-德語和英語-羅馬尼亞語的六個翻譯方向上的表現都優于 XLM，并取得了最新的最優結果。

　　表 2 MASS 與之前關于無監督機器翻譯方法之間的比較；英語-法語翻譯報道在 newstest2014 上，其它的在 newstest2016 可以找到；由于 XLM 在編碼器和解碼器中使用 MLM 和 CLM 的不同組合，因此報告上顯示的是每個語言對上 XLM 的最高 BLEU 值

　　低資源機器翻譯

　　低資源機器翻譯是指使用有限的雙語訓練數據來進行機器翻譯。研究人員模擬了 WMT14 英語-法語，WMT16 英語-德語和英語-羅馬尼亞語翻譯（分別為 10K，100K 和 1M 雙語數據）的低資源情景。

　　圖 6 MASS 與低資源機器翻譯方法之間的比較

　　圖 6 顯示 MASS 在不同數據規模上的表現，均比不用預訓練的基線模型有不同程度的提升，并隨著監督數據越少，提升效果越顯著。

　　文本摘要生成

　　研究人員將 MASS 與 BERT+LM（編碼器用 BERT 預訓練，解碼器用標準語言模型 LM 預訓練）、DAE（去噪自編碼器）進行了比較。從表 3 中可以看出，MASS 的表現都優于 BERT+LM 和 DAE。

　　表 3 文本摘要生成任務中，MASS 和兩種預訓練方法之間的比較

　　對話生成

　　研究人員將 MASS 和 BERT+LM 進行了比較。表 4 顯示 MASS 實現了比 BERT+LM 更低的 PPL。

　　表 4 MASS 與 BERT+LM 之間的比較數據

　　MASS 連續在序列到序列的語言生成任務上實現顯著增益，Facebook 的研究者表示，期待今后在自然語言理解任務中測試 MASS 的性能，并希望在未來的工作中，將 MASS 的應用領域擴展到包含語音、視頻等其它序列到序列的生成任務中。

版權聲明：本站內容除特別聲明的原創文章之外，轉載內容只為傳遞更多信息，并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經濟損失。聯系電話：010-82306118；郵箱：aet@chinaaet.com。

微軟推出全新通用預訓練方法——MASS，效果比 BERT 和 GPT 更好？

日期： 2019-06-28

相關內容