精品女同一区二区三区在线观看,成人一区二区三区,久久狠狠久久

【ChatGPT專題】ChatGPT關鍵技術之RLHF簡介

日期： 2023-02-15

來源：啟明星辰核心技術研究

關鍵詞： ChatGPT RLHF OpenAI

　　帶有人類反饋的強化學習（RLHF）是一種訓練大型語言模型（LLM）的新技術，對OpenAI的ChatGPT模型、DeepMind的Sparrow、Anthropic的Claude等都至關重要。不是僅僅訓練LLM來預測下一個單詞，而是訓練它們理解指令并產生有用的回應。Surge AI的官方博客發表了一篇文章對RLHF技術進行了簡介，文章首先給出一些例子對比了沒有使用RLHF技術訓練的LLM與使用了RLHF技術訓練的LLM的差異，然后簡要描述了RLHF技術的主要步驟。

　　RLHF使用與否的差異

　　文章給出3個例子，分別是讓LLM寫一封郵件、做數學運算和生成代碼。以下是RLHF使用與否的對比結果（左側未使用RLFH，右側使用），很容易看出使用RLHF訓練的LLM輸出的結果明顯優于未使用時的情形。

　　微信截圖_20230215172543.png

　　RLHF的主要步驟

　　RLHF技術主要分為如下4個步驟。

　　無監督預訓練

　　可以從一個預訓練好的語言模型開始，比如GPT-3。

　　有監督的微調

　　生成一組指令，以及對每個指令的人類寫的反應。換句話說，生成一個由<提示，理想生成>對組成的訓練數據集。然后對預訓練的模型進行微調，以輸出這些人類反應。

　　訓練一個“人類反饋”的獎勵模型

　　這一步是建立一個獎勵模型，對一個LLM的輸出對一個給定的反應的好壞進行評分。換句話說，獎勵模型是另一個模型（例如，另一個砍掉了最后幾層的LLM），它將提示和生成作為輸入，并輸出一個標量獎勵。

　　再生成一組新的指令，然后生成一組機器生成的對這些指令的反應，并由人類對其質量進行評分或排名。使用這個數據集來訓練一個獎勵模型，為任何<提示，生成>對輸出一個質量分數。

　　訓練一個基于獎勵模型進行優化的強化學習策略

　　最后，訓練一個基于獎勵模型進行優化的強化學習策略（即，試圖生成獎勵模型認為人類更喜歡的文本），它就是新的RLHF算法！

　　換句話說，在強化學習模型中，從一個給定的狀態采取的行動將為策略提供一個獎勵，它將努力使之最大化。在本場景中，策略本質上只是一個語言模型，它的行動是生成文本，而它的獎勵是獎勵模型給生成的文本的分數。

　　所以要訓練這個RLHF模型：

　　首先，將RL策略初始化為步驟2中的微調LLM。然后重復以下操作。

　　取一個提示并使用RL策略生成一個輸出。

　　使用獎勵模型來計算該輸出的獎勵。

　　根據獎勵更新RL策略（即，該策略現在正在學習它是否產生了好的或壞的反應）。

　　簡評

　　RLHF是訓練語言模型的新技術，是近期大火的ChatGPT及其競品所采用的關鍵技術之一，它使得LLM的輸出更符合人類的偏好。OpenAI還發現RLHF模型的效率要高得多：1.3B參數的RLHF模型優于1750B參數的非RLHF模型，盡管參數少了100多倍。

　　近期ChatGPT的相關信息席卷整個互聯網，受到大眾的關注，一個重要原因就是其在多個領域背景下的問答對話相比于之前的LLM（如GPT-3）要有明顯的提升，從上文所列舉的3個簡單例子就可見一斑了。從目前公開的相關技術信息來看，ChatGPT構建在GPT-3基礎上，模型的規模與參數量沒有增大，采用了與InstructGPT相同代際的模型（被人稱為GPT-3.5）。而InstructGPT的核心改進正是本文所介紹的RLHF技術，通過將帶人類反饋的強化學習引入以訓練語言模型來輸出人們更偏愛的結果，使得對話更符合人類邏輯。需要注意的是，ChatGPT依然還是一種LLM，核心能力是完成各類自然語言處理及理解相關的各種任務，在準確性與專業性上，還是會受限于其訓練數據，距離通用人工智能（AGI）還有相當的距離，其相比于GPT-3的改進還達不到所謂的“革命性”或“顛覆性”，但是我們依然可以繼續期待未來的GPT-4及之后版本將會帶來什么樣的提升。

敬請關注電子技術應用2023年2月22日==>>商業航天研討會<<

微信圖片_20230210170337.jpg

版權聲明：本站內容除特別聲明的原創文章之外，轉載內容只為傳遞更多信息，并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經濟損失。聯系電話：010-82306118；郵箱：aet@chinaaet.com。

【ChatGPT專題】ChatGPT關鍵技術之RLHF簡介

日期： 2023-02-15

來源：啟明星辰核心技術研究

相關內容