《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 人工智能 > 業(yè)界動態(tài) > 入門:ChatGPT的技術(shù)體系

入門:ChatGPT的技術(shù)體系

2023-02-26
來源:GiantPandaCV
關(guān)鍵詞: ChatGPT 智能體 模型

  ChatGPT的技術(shù)體系

  0.參考資料

  RLHF論文:Training language models to follow instructions with human feedback(https://arxiv.org/pdf/2203.02155.pdf)

  摘要上下文中的 RLHF:Learning to summarize from Human Feedback (https://arxiv.org/pdf/2009.01325.pdf)

  PPO論文:Proximal Policy Optimization Algorithms(https://arxiv.org/pdf/1707.06347.pdf)

  Deep reinforcement learning from human preferences (https://arxiv.org/abs/1706.03741)

  1. 引言

  1.1 ChatGPT的介紹

  作為一個 AI Chatbot,ChatGPT 是當(dāng)前比較強大的自然語言處理模型之一,它基于 Google 的 T5 模型進行了改進,同時加入了許多自然語言處理的技術(shù),使得它可以與人類進行自然的、連貫的對話。ChatGPT 使用了 GPT(Generative Pre-training Transformer)架構(gòu),它是一種基于 Transformer 的預(yù)訓(xùn)練語言模型。GPT 的主要思想是將大量的語料庫輸入到模型中進行訓(xùn)練,使得模型能夠理解和學(xué)習(xí)語言的語法、語義等信息,從而生成自然、連貫的文本。與其他 Chatbot 相比,ChatGPT 的優(yōu)勢在于它可以進行上下文感知型的對話,即它可以記住上下文信息,而不是簡單地匹配預(yù)先定義的規(guī)則或模式。此外,ChatGPT 還可以對文本進行生成和理解,支持多種對話場景和話題,包括閑聊、知識問答、天氣查詢、新聞閱讀等等。

  盡管 ChatGPT 在自然語言處理領(lǐng)域已經(jīng)取得了很好的表現(xiàn),但它仍然存在一些局限性,例如對于一些復(fù)雜的、領(lǐng)域特定的問題,它可能無法給出正確的答案,需要通過人類干預(yù)來解決。因此,在使用 ChatGPT 進行對話時,我們?nèi)孕枰?jǐn)慎對待,盡可能提供明確、簡潔、準(zhǔn)確的問題,以獲得更好的對話體驗。

  1.2 ChatGPT的訓(xùn)練模式

  ChatGPT 的訓(xùn)練模式是基于大規(guī)模文本數(shù)據(jù)集的監(jiān)督學(xué)習(xí)和自我監(jiān)督學(xué)習(xí),這些數(shù)據(jù)集包括了各種類型的文本,例如新聞文章、博客、社交媒體、百科全書、小說等等。ChatGPT 通過這些數(shù)據(jù)集進行預(yù)訓(xùn)練,然后在特定任務(wù)的數(shù)據(jù)集上進行微調(diào)。

  對于 Reinforcement Learning from Human Feedback 的訓(xùn)練方式,ChatGPT 通過與人類進行對話來進行模型訓(xùn)練。具體而言,它通過與人類進行對話,從而了解人類對話的語法、語義和上下文等方面的信息,并從中學(xué)習(xí)如何生成自然、連貫的文本。當(dāng) ChatGPT 生成回復(fù)時,人類可以對其進行反饋,例如“好的”、“不太好”等等,這些反饋將被用來調(diào)整模型參數(shù),以提高 ChatGPT 的回復(fù)質(zhì)量。Reinforcement Learning from Human Feedback 的訓(xùn)練方式,可以使 ChatGPT 更加智能,更好地模擬人類的思維方式。不過這種訓(xùn)練方式也存在一些問題,例如人類反饋的主觀性和不確定性等,這些問題可能會影響模型的訓(xùn)練效果。因此,我們需要在使用 ChatGPT 進行對話時,謹(jǐn)慎對待反饋,盡可能提供明確、簡潔、準(zhǔn)確的反饋,以獲得更好的對話體驗。

  1.3 RLHF的介紹

 122.JPG

  在過去的幾年中,語言模型通過根據(jù)人類輸入提示生成多樣化且引人注目的文本顯示出令人印象深刻的能力。然而,什么才是“好”文本本質(zhì)上很難定義,因為它是主觀的并且依賴于上下文。有許多應(yīng)用程序,例如編寫您需要創(chuàng)意的故事、應(yīng)該真實的信息性文本片段,或者我們希望可執(zhí)行的代碼片段。編寫一個損失函數(shù)來捕獲這些屬性似乎很棘手,而且大多數(shù)語言模型仍然使用簡單的下一個loss function(例如交叉熵)進行訓(xùn)練。為了彌補損失本身的缺點,人們定義了旨在更好地捕捉人類偏好的指標(biāo),例如 BLEU 或 ROUGE。雖然比損失函數(shù)本身更適合衡量性能,但這些指標(biāo)只是簡單地將生成的文本與具有簡單規(guī)則的引用進行比較,因此也有局限性。如果我們使用生成文本的人工反饋作為性能衡量標(biāo)準(zhǔn),或者更進一步并使用該反饋作為損失來優(yōu)化模型,那不是很好嗎?這就是從人類反饋中強化學(xué)習(xí)(RLHF)的想法;使用強化學(xué)習(xí)的方法直接優(yōu)化帶有人類反饋的語言模型。RLHF 使語言模型能夠開始將在一般文本數(shù)據(jù)語料庫上訓(xùn)練的模型與復(fù)雜人類價值觀的模型對齊。

  在傳統(tǒng)的強化學(xué)習(xí)中,智能的agent需要通過不斷的試錯來學(xué)習(xí)如何最大化獎勵函數(shù)。但是,這種方法往往需要大量的訓(xùn)練時間和數(shù)據(jù),同時也很難確保智能代理所學(xué)習(xí)到的策略是符合人類期望的。Deep Reinforcement Learning from Human Preferences 則采用了一種不同的方法,即通過人類偏好來指導(dǎo)智能代理的訓(xùn)練。具體而言,它要求人類評估一系列不同策略的優(yōu)劣,然后將這些評估結(jié)果作為訓(xùn)練數(shù)據(jù)來訓(xùn)練智能代理的深度神經(jīng)網(wǎng)絡(luò)。這樣,智能代理就可以在人類偏好的指導(dǎo)下,學(xué)習(xí)到更符合人類期望的策略。除了減少訓(xùn)練時間和提高智能代理的性能之外,Deep Reinforcement Learning from Human Preferences 還可以在許多現(xiàn)實場景中發(fā)揮作用,例如游戲設(shè)計、自動駕駛等。通過使用人類偏好來指導(dǎo)智能代理的訓(xùn)練,我們可以更好地滿足人類需求,并創(chuàng)造出更加智能和人性化的技術(shù)應(yīng)用

  2. 方法介紹

121.JPG

  方法總體上包括三個不同步驟:

  監(jiān)督調(diào)優(yōu)模型:在一小部分已經(jīng)標(biāo)注好的數(shù)據(jù)上進行有監(jiān)督的調(diào)優(yōu),讓機器學(xué)習(xí)從一個給定的提示列表中生成輸出,這個模型被稱為 SFT 模型。

  模擬人類偏好,讓標(biāo)注者們對大量 SFT 模型輸出進行投票,這樣就可以得到一個由比較數(shù)據(jù)組成的新數(shù)據(jù)集。然后用這個新數(shù)據(jù)集來訓(xùn)練一個新模型,叫做 RM 模型。

  用 RM 模型進一步調(diào)優(yōu)和改進 SFT 模型,用一種叫做 PPO 的方法得到新的策略模式。

  第一步只需要進行一次,而第二步和第三步可以持續(xù)重復(fù)進行,以收集更多的比較數(shù)據(jù)來訓(xùn)練新的 RM 模型和更新策略模式。

  2.1 監(jiān)督調(diào)優(yōu)模型

  需要收集數(shù)據(jù)來訓(xùn)練有監(jiān)督的策略模型。為了做到這一點,選定一些提示,讓標(biāo)注人員寫出預(yù)期的回復(fù)。這個過程雖然緩慢和昂貴,但最終得到的是一個相對較小、高質(zhì)量的數(shù)據(jù)集,可用于調(diào)優(yōu)預(yù)訓(xùn)練的語言模型。選擇了 GPT-3.5 系列中的預(yù)訓(xùn)練模型作為基線模型,而不是對原始 GPT-3 模型進行調(diào)優(yōu)。

  然而,由于此步驟的數(shù)據(jù)量有限,這個過程得到的 SFT 模型可能會輸出一些不是用戶想要的文本,通常也會出現(xiàn)不一致問題。為了解決這個問題,使用的策略是讓標(biāo)注者對 SFT 模型的不同輸出進行排序以創(chuàng)建 RM 模型,而不是讓標(biāo)注者創(chuàng)建一個更大的精選數(shù)據(jù)集。

  2.2 訓(xùn)練回報模型

  在這一步中,我們的目標(biāo)是學(xué)習(xí)一個目標(biāo)函數(shù),它可以直接從數(shù)據(jù)中學(xué)習(xí),而不是僅僅從有限的訓(xùn)練數(shù)據(jù)中調(diào)整語言模型。這個目標(biāo)函數(shù)的作用是為 SFT 模型生成的輸出進行評分,以表示這些輸出對人類來說有多可接受。它反映了人類標(biāo)注者的偏好和共同準(zhǔn)則。最終,這個過程可以得到一個系統(tǒng),它可以模仿人類的偏好。包括以下步驟:

  利用prompt 生成多個輸出。

  利用標(biāo)注者對這些輸出進行排序,獲得一個更大質(zhì)量更高的數(shù)據(jù)集。

  把模型將 SFT 模型輸出作為輸入,并按優(yōu)先順序?qū)λ鼈冞M行排序。

  2.3 使用 PPO 模型微調(diào) SFT 模型

  這一步的目標(biāo)是通過強化學(xué)習(xí)來調(diào)整 SFT 模型。具體來說,使用了一個叫 PPO 的算法來訓(xùn)練一個叫做近端策略優(yōu)化模型的調(diào)整模型,用于優(yōu)化 SFT 模型。

  PPO 是一種用于訓(xùn)練智能體的算法,可以不斷地調(diào)整策略以提高效果。與其他算法不同的是,PPO 會限制策略的更改范圍,以確保訓(xùn)練的穩(wěn)定性。此外,PPO 還使用了一個價值函數(shù)來估計每個行動的價值,從而更加準(zhǔn)確地進行調(diào)整。

  在這一步中,PPO 模型使用 SFT 模型作為起點,RM 模型作為基礎(chǔ),為給定的輸入生成回報。為了避免過度優(yōu)化,SFT 模型會為每個 token 添加 KL 懲罰因子。

  3. 性能評估

  作為一個大型語言模型,ChatGPT的評估標(biāo)準(zhǔn)可以有多種。在訓(xùn)練ChatGPT時,通常會使用一些標(biāo)準(zhǔn)的自然語言處理評估指標(biāo)來評估其性能,如困惑度(perplexity)、BLEU分?jǐn)?shù)、ROUGE分?jǐn)?shù)等。這些指標(biāo)可以用來評估ChatGPT在生成文本時的流暢度、語義連貫性和表達能力等方面的表現(xiàn)。此外,ChatGPT也可以通過人類評估來評估其性能,例如進行用戶調(diào)查或人類評分實驗。這些方法可以提供更貼近實際使用場景的評估,以便更全面地評估ChatGPT在生成自然語言文本方面的表現(xiàn)。

  主要借助以下三個標(biāo)準(zhǔn)進行評估:

  幫助性:判斷模型遵循用戶指示以及推斷指示的能力。

  真實性:判斷模型在封閉領(lǐng)域任務(wù)中有產(chǎn)生虛構(gòu)事實的傾向。

  無害性:標(biāo)注者評估模型的輸出是否適當(dāng)、是否包含歧視性內(nèi)容。

  4. ChatGPT的前景

  ChatGPT 在自然語言處理領(lǐng)域具有廣泛的應(yīng)用前景。它可以用于語言翻譯、情感分析、問答系統(tǒng)、文本摘要、對話系統(tǒng)等多個任務(wù),幫助人們更好地理解和處理自然語言。此外,ChatGPT 還可以應(yīng)用于許多其他領(lǐng)域,例如自然語言生成、自動文本摘要、機器翻譯、自動問答、語音識別等。它也可以用于推薦系統(tǒng)、智能客服、智能問答、知識圖譜等領(lǐng)域。ChatGPT 的未來發(fā)展前景非常廣闊,可以預(yù)見的是,隨著技術(shù)的不斷發(fā)展,它將在各個領(lǐng)域得到更廣泛的應(yīng)用和改進。同時,也需要關(guān)注和解決一些挑戰(zhàn),例如如何提高模型的效率和準(zhǔn)確性,如何解決對話中的常識推理和知識不足等問題。



更多信息可以來這里獲取==>>電子技術(shù)應(yīng)用-AET<< 

mmexport1621241704608.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
校园激情久久| 亚洲欧美国内爽妇网| 亚洲视频图片小说| 亚洲国产精品一区| 狠狠色丁香久久综合频道| 欧美亚男人的天堂| 欧美区视频在线观看| 免费在线一区二区| 久久久一区二区| 久久九九国产| 欧美在线1区| 欧美中在线观看| 欧美在线播放视频| 欧美一区视频在线| 性欧美video另类hd性玩具| 亚洲影院免费| 亚洲欧美色一区| 欧美一区二区高清| 欧美一区二区三区四区夜夜大片| 亚洲欧美日韩综合| 欧美一区二区免费观在线| 午夜精品一区二区在线观看 | 欧美日韩黄视频| 欧美日本一道本| 欧美日韩亚洲一区二区三区| 欧美日韩一区精品| 欧美亚一区二区| 国产精品女主播在线观看| 国产精品美女久久久浪潮软件| 国产精品视频yy9299一区| 国产日韩欧美在线观看| 国语自产在线不卡| 亚洲福利av| 亚洲免费高清视频| 亚洲一卡二卡三卡四卡五卡| 亚洲自拍偷拍一区| 久久疯狂做爰流白浆xx| 亚洲激情不卡| 中文在线资源观看网站视频免费不卡| 亚洲一区不卡| 久久er精品视频| 免费观看成人www动漫视频| 欧美激情一区二区三区全黄| 国产精品va在线播放我和闺蜜| 国产精品网站在线播放| 国产自产女人91一区在线观看| 亚洲国产美女精品久久久久∴| 日韩一区二区免费高清| 亚洲欧美国产不卡| 91久久国产综合久久| 亚洲一区二区三区精品动漫| 欧美在线一级视频| 欧美成人一品| 国产精品入口尤物| 在线看日韩av| 亚洲一区国产| 亚洲激情网站| 亚洲欧美制服另类日韩| 久久综合99re88久久爱| 欧美日韩视频专区在线播放 | 最新亚洲一区| 亚洲男人影院| 亚洲日本成人网| 亚洲宅男天堂在线观看无病毒| 久久久久久久波多野高潮日日| 美女精品网站| 国产精品成人午夜| 一区二区三区在线视频免费观看| 99热在这里有精品免费| 欧美制服第一页| 亚洲视屏在线播放| 久久综合激情| 国产精品视频久久| 亚洲经典在线| 欧美在线播放视频| 亚洲午夜未删减在线观看| 裸体一区二区三区| 国产精品二区在线观看| 亚洲国产精品久久久| 午夜欧美大片免费观看| 亚洲天堂偷拍| 欧美国产欧美亚洲国产日韩mv天天看完整| 国产精品老牛| 最新成人av网站| 久久精品99久久香蕉国产色戒| 亚洲一区二区三区777| 欧美成人高清| 狠狠网亚洲精品| 亚洲女性裸体视频| 一区二区三区精品视频在线观看| 久久亚洲综合色一区二区三区| 国产精品女主播| 9国产精品视频| 亚洲理伦在线| 欧美 日韩 国产精品免费观看| 国产欧美日韩不卡| 一区二区欧美亚洲| 9久re热视频在线精品| 久久综合九色欧美综合狠狠| 国产视频在线观看一区二区三区| 一区二区av| 一区二区三区视频在线观看| 欧美激情影音先锋| 伊人狠狠色丁香综合尤物| 亚洲欧美日韩爽爽影院| 亚洲自拍啪啪| 国产精品久久久久久久免费软件 | 国产欧美一区二区精品仙草咪| 99在线观看免费视频精品观看| 亚洲欧洲在线播放| 猛男gaygay欧美视频| 狠狠综合久久| 久久国产精品一区二区三区| 欧美中文字幕精品| 国产乱肥老妇国产一区二| 亚洲视频电影在线| 亚洲专区在线| 国产精品成av人在线视午夜片| 9色porny自拍视频一区二区| 99精品免费| 欧美日韩成人| 日韩一二三区视频| 亚洲深夜福利网站| 欧美日韩一区三区| 亚洲少妇自拍| 午夜在线一区二区| 国产精品一二三四区| 亚洲欧美成人网| 久久精品一二三区| 国产亚洲欧美另类一区二区三区| 午夜日韩视频| 久久久久久久一区二区三区| 狠狠色综合网站久久久久久久| 亚洲国产成人高清精品| 免费看成人av| 亚洲人成高清| 亚洲资源av| 国产欧美一区二区三区视频| 欧美一区中文字幕| 猫咪成人在线观看| 亚洲日韩欧美一区二区在线| 亚洲午夜日本在线观看| 国产精品亚洲综合| 香蕉久久夜色精品国产| 老司机午夜精品视频| 91久久精品一区二区三区| 亚洲天堂偷拍| 国产日韩欧美在线看| 亚洲激情精品| 欧美日韩精品伦理作品在线免费观看 | 亚洲在线播放| 国产日韩欧美电影在线观看| 亚洲成人在线视频网站| 欧美777四色影视在线| 亚洲免费不卡| 久久成人人人人精品欧| 在线观看国产成人av片| av成人手机在线| 国产精品一区免费视频| 亚洲黄色免费网站| 欧美日本高清一区| 亚洲欧美精品伊人久久| 农村妇女精品| 亚洲天堂黄色| 蜜桃伊人久久| 亚洲天堂免费在线观看视频| 久久尤物电影视频在线观看| 99国产精品久久久| 久久久久国产精品午夜一区| 亚洲激情综合| 欧美在线观看天堂一区二区三区| 亚洲国产成人av在线| 亚洲欧美国产日韩中文字幕| 在线高清一区| 香蕉乱码成人久久天堂爱免费| 在线观看成人av电影| 先锋亚洲精品| 亚洲欧洲一区二区天堂久久| 欧美一区二区三区久久精品茉莉花| 一区在线免费| 新片速递亚洲合集欧美合集| 亚洲国产二区| 午夜在线一区| 亚洲精选大片| 久久人体大胆视频| 在线亚洲欧美| 欧美国产亚洲视频| 欧美在线观看一区二区| 欧美日韩免费观看一区| 欧美一区久久| 国产精品成人一区二区| 亚洲激情一区二区| 国产亚洲综合在线| 亚洲特级毛片| 亚洲经典在线看| 久热精品在线视频| 亚洲欧美成人| 欧美视频网址| 亚洲乱码国产乱码精品精| 国产一级久久|