《電子技術應用》
您所在的位置:首頁 > 人工智能 > 業界動態 > 【ChatGPT專題】ChatGPT關鍵技術之RLHF簡介

【ChatGPT專題】ChatGPT關鍵技術之RLHF簡介

2023-02-15
來源:啟明星辰核心技術研究
關鍵詞: ChatGPT RLHF OpenAI

  帶有人類反饋的強化學習(RLHF)是一種訓練大型語言模型(LLM)的新技術,對OpenAIChatGPT模型、DeepMind的Sparrow、Anthropic的Claude等都至關重要。不是僅僅訓練LLM來預測下一個單詞,而是訓練它們理解指令并產生有用的回應。Surge AI的官方博客發表了一篇文章對RLHF技術進行了簡介,文章首先給出一些例子對比了沒有使用RLHF技術訓練的LLM與使用了RLHF技術訓練的LLM的差異,然后簡要描述了RLHF技術的主要步驟。

  RLHF使用與否的差異

  文章給出3個例子,分別是讓LLM寫一封郵件、做數學運算和生成代碼。以下是RLHF使用與否的對比結果(左側未使用RLFH,右側使用),很容易看出使用RLHF訓練的LLM輸出的結果明顯優于未使用時的情形。

  微信截圖_20230215172543.png

  RLHF的主要步驟

  RLHF技術主要分為如下4個步驟。

  01

  無監督預訓練

  可以從一個預訓練好的語言模型開始,比如GPT-3。

  02

  有監督的微調

  生成一組指令,以及對每個指令的人類寫的反應。換句話說,生成一個由<提示,理想生成>對組成的訓練數據集。然后對預訓練的模型進行微調,以輸出這些人類反應。

  03

  訓練一個“人類反饋”的獎勵模型

  這一步是建立一個獎勵模型,對一個LLM的輸出對一個給定的反應的好壞進行評分。換句話說,獎勵模型是另一個模型(例如,另一個砍掉了最后幾層的LLM),它將提示和生成作為輸入,并輸出一個標量獎勵。

  再生成一組新的指令,然后生成一組機器生成的對這些指令的反應,并由人類對其質量進行評分或排名。使用這個數據集來訓練一個獎勵模型,為任何<提示,生成>對輸出一個質量分數。

  04

  訓練一個基于獎勵模型進行優化的強化學習策略

  最后,訓練一個基于獎勵模型進行優化的強化學習策略(即,試圖生成獎勵模型認為人類更喜歡的文本),它就是新的RLHF算法!

  換句話說,在強化學習模型中,從一個給定的狀態采取的行動將為策略提供一個獎勵,它將努力使之最大化。在本場景中,策略本質上只是一個語言模型,它的行動是生成文本,而它的獎勵是獎勵模型給生成的文本的分數。

  所以要訓練這個RLHF模型:

  01

  首先,將RL策略初始化為步驟2中的微調LLM。然后重復以下操作。

  02

  取一個提示并使用RL策略生成一個輸出。

  03

  使用獎勵模型來計算該輸出的獎勵。

  04

  根據獎勵更新RL策略(即,該策略現在正在學習它是否產生了好的或壞的反應)。

  簡評

  RLHF是訓練語言模型的新技術,是近期大火的ChatGPT及其競品所采用的關鍵技術之一,它使得LLM的輸出更符合人類的偏好。OpenAI還發現RLHF模型的效率要高得多:1.3B參數的RLHF模型優于1750B參數的非RLHF模型,盡管參數少了100多倍。

  近期ChatGPT的相關信息席卷整個互聯網,受到大眾的關注,一個重要原因就是其在多個領域背景下的問答對話相比于之前的LLM(如GPT-3)要有明顯的提升,從上文所列舉的3個簡單例子就可見一斑了。從目前公開的相關技術信息來看,ChatGPT構建在GPT-3基礎上,模型的規模與參數量沒有增大,采用了與InstructGPT相同代際的模型(被人稱為GPT-3.5)。而InstructGPT的核心改進正是本文所介紹的RLHF技術,通過將帶人類反饋的強化學習引入以訓練語言模型來輸出人們更偏愛的結果,使得對話更符合人類邏輯。需要注意的是,ChatGPT依然還是一種LLM,核心能力是完成各類自然語言處理及理解相關的各種任務,在準確性與專業性上,還是會受限于其訓練數據,距離通用人工智能(AGI)還有相當的距離,其相比于GPT-3的改進還達不到所謂的“革命性”或“顛覆性”,但是我們依然可以繼續期待未來的GPT-4及之后版本將會帶來什么樣的提升。


敬請關注電子技術應用2023年2月22日==>>商業航天研討會<<


微信圖片_20230210170337.jpg

本站內容除特別聲明的原創文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯系電話:010-82306118;郵箱:aet@chinaaet.com。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
日韩亚洲在线| 亚洲欧洲另类国产综合| 在线观看视频日韩| 国产午夜精品久久久久久免费视| 国产精品伦理| 国产精品久久久久影院色老大| 欧美色综合天天久久综合精品| 欧美人成网站| 欧美女同在线视频| 欧美日韩国产123区| 欧美日韩精品| 欧美日韩精品福利| 欧美视频在线观看一区| 欧美伦理91i| 欧美视频一区二区三区…| 欧美日韩1234| 欧美性猛交99久久久久99按摩| 国产精品地址| 国产欧美一区二区视频| 国产日韩专区| 在线成人中文字幕| 亚洲欧洲在线看| 在线亚洲免费视频| 午夜视频在线观看一区| 久久成人精品视频| 亚洲精品乱码久久久久久按摩观 | 欧美三级视频| 国产精品久久久久aaaa| 国产欧美在线观看| 激情婷婷欧美| 亚洲黄色av一区| 亚洲最新色图| 午夜国产精品影院在线观看| 久久精品成人一区二区三区蜜臀 | 欧美在线视屏 | 一区二区三区视频在线观看| 亚洲一区二区在线免费观看视频 | 美国十次了思思久久精品导航| 欧美国产视频日韩| 欧美色一级片| 国产在线成人| 亚洲精品一级| 亚洲欧美日韩国产中文在线| 亚洲国产精品日韩| 亚洲性夜色噜噜噜7777| 久久久久久夜精品精品免费| 欧美成人激情视频| 欧美午夜视频在线观看| 国产有码在线一区二区视频| 亚洲欧洲精品成人久久奇米网 | 亚洲欧美综合国产精品一区| 亚洲国产精品精华液2区45| 亚洲最快最全在线视频| 久久精品成人一区二区三区| 欧美成人精品在线视频| 国产精品日韩欧美一区二区| 在线成人国产| 亚洲一区一卡| 日韩一级欧洲| 久久久久久电影| 欧美日韩在线视频一区二区| 国产一区二区在线免费观看 | 亚洲久久一区二区| 午夜久久福利| 欧美高清在线| 国产日韩欧美高清免费| 亚洲精品黄网在线观看| 性做久久久久久| 亚洲视频观看| 蜜臀av一级做a爰片久久 | 国产在线一区二区三区四区| 99国产精品99久久久久久| 久久精品视频在线观看| 午夜精品久久99蜜桃的功能介绍| 欧美freesex8一10精品| 国产欧美一级| 中文欧美日韩| 亚洲精品三级| 久久久久久久999精品视频| 欧美日韩喷水| 亚洲国产另类精品专区 | 国产精品日日摸夜夜添夜夜av | 久久国产乱子精品免费女| 亚洲女同在线| 欧美福利一区| 国内免费精品永久在线视频| 亚洲天堂免费在线观看视频| 99精品视频免费观看视频| 麻豆精品视频在线| 国产午夜精品美女毛片视频| 中文一区二区在线观看| 日韩系列欧美系列| 蜜臀av国产精品久久久久| 国产一区二区三区在线观看精品 | 欧美在线资源| 国产精品xvideos88| 亚洲精品免费一区二区三区| 最新日韩欧美| 久久综合色影院| 国产亚洲欧美另类中文| 亚洲欧美日韩人成在线播放| 亚洲伊人观看| 欧美午夜欧美| 99精品视频免费| 一区二区三区不卡视频在线观看 | 在线亚洲成人| 在线一区免费观看| 欧美精品系列| 亚洲精品乱码久久久久久蜜桃91| 亚洲三级国产| 欧美激情综合色综合啪啪| 亚洲国产精品精华液网站| 91久久久久久国产精品| 农夫在线精品视频免费观看| 精品成人国产在线观看男人呻吟| 久久激情综合| 久久人人97超碰国产公开结果| 国产一区清纯| 久久er精品视频| 久久综合久久久| 激情文学一区| 亚洲国产精品成人精品| 免费久久精品视频| 亚洲国产婷婷香蕉久久久久久99 | 亚洲黄色大片| 欧美黑人在线观看| 亚洲精品国久久99热| 一本色道久久99精品综合| 欧美日韩国产丝袜另类| aⅴ色国产欧美| 先锋影音国产精品| 国产欧美日韩精品丝袜高跟鞋| 小处雏高清一区二区三区| 久久久久久久久久久成人| 精品成人一区二区| 日韩视频二区| 国产精品高清网站| 亚洲免费在线观看| 久久久久se| 亚洲国产精品精华液网站| 一本色道精品久久一区二区三区| 欧美日韩一区二区免费在线观看| 亚洲桃色在线一区| 久久九九热免费视频| 一色屋精品亚洲香蕉网站| 99国产成+人+综合+亚洲欧美| 欧美视频免费| 欧美一级午夜免费电影| 欧美成在线视频| 亚洲视频1区| 久久久蜜桃精品 | 夜夜躁日日躁狠狠久久88av| 香蕉av福利精品导航| 狠狠色丁香久久婷婷综合_中| 亚洲美女啪啪| 国产精品亚洲综合色区韩国| 亚洲高清免费在线| 欧美精品久久久久久久| 亚洲一区二区三区精品动漫| 麻豆av一区二区三区| 99国产精品视频免费观看| 久久精品一二三区| 亚洲精品在线三区| 欧美一级久久久久久久大片| 精品动漫3d一区二区三区免费版 | 一区二区三区成人| 国产一区自拍视频| 亚洲网站视频福利| 国内精品免费午夜毛片| 一区二区国产在线观看| 国产亚洲午夜高清国产拍精品| 亚洲免费av电影| 国产欧美日韩91| 一本到12不卡视频在线dvd| 国产欧美日韩亚洲精品| 亚洲美女av电影| 国产午夜一区二区三区| 正在播放亚洲一区| 伊甸园精品99久久久久久| 亚洲免费网站| 亚洲国产精品成人精品| 欧美一区2区视频在线观看| 亚洲精美视频| 久久免费偷拍视频| 一本久道综合久久精品| 欧美va亚洲va日韩∨a综合色| 亚洲欧美成人精品| 欧美日韩成人在线| 久久精品国产久精国产爱 | 国外成人在线视频网站| 中文在线不卡视频| 136国产福利精品导航网址应用| 性欧美长视频| 亚洲精品在线免费观看视频| 老司机精品久久| 小嫩嫩精品导航| 国产精品国产a级| 99视频+国产日韩欧美| 在线观看视频一区二区| 久久久久国产精品一区二区|