《電子技術應用》
您所在的位置:首頁 > 人工智能 > 業界動態 > 英偉達發布6.3萬億Token大型AI訓練數據庫Nemotron-CC

英偉達發布6.3萬億Token大型AI訓練數據庫Nemotron-CC

2025-01-14
來源:IT之家
關鍵詞: 英偉達 AI Nemotron-CC

1 月 13 日消息,據英偉達官方博客,英偉達宣布推出一款名為 Nemotron-CC 的大型英文 AI 訓練數據庫,總計包含 6.3 萬億個 Token,其中 1.9 萬億為合成數據。英偉達聲稱該訓練數據庫可以幫助為學術界和企業界進一步推動大語言模型的訓練過程。

2.jpg

目前,業界各類 AI 模型的具體性能主要取決于相應模型的訓練數據。然而現有公開數據庫在規模和質量上往往存在局限性,英偉達稱 Nemotron-CC 的出現正是為了解決這一瓶頸,該訓練數據庫 6.3 萬億 Token 的規模內含大量經過驗證的高質量數據,號稱是 " 訓練大型語言模型的理想素材 "。

數據來源方面,Nemotron-CC 基于 Common Crawl 網站數據構建,并在經過嚴格的數據處理流程后,提取而成高質量子集 Nemotron-CC-HQ。

在性能方面,英偉達稱與目前業界領先的公開英文訓練數據庫 DCLM(Deep Common Crawl Language Model)相比,使用 Nemotron-CC-HQ 訓練的模型在 MMLU(Massive Multitask Language Understanding)基準測試中的分數提高了 5.6 分。

進一步測試顯示,使用 Nemotron-CC 訓練的 80 億參數模型在 MMLU 基準測試中分數提升 5 分,在 ARC-Challenge 基準測試中提升 3.1 分,并在 10 項不同任務的平均表現中提高 0.5 分,超越了基于 Llama 3 訓練數據集開發的 Llama 3.1 8B 模型。

3.jpg

英偉達官方表示,Nemotron-CC 的開發過程中使用了模型分類器、合成數據重述(Rephrasing)等技術,最大限度地保證了數據的高質量和多樣性。同時他們還針對特定高質量數據降低了傳統的啟發式過濾器處理權重,從而進一步提高了數據庫高質量 Token 的數量,并避免對模型精確度造成損害。

英偉達已將 Nemotron-CC 訓練數據庫已在 Common Crawl 網站上公開(點此訪問),英偉達稱相關文檔文件將在稍晚時候于該公司的 GitHub 頁中公布。


Magazine.Subscription.jpg

本站內容除特別聲明的原創文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯系電話:010-82306118;郵箱:aet@chinaaet.com。
主站蜘蛛池模板: 久久精品中文字幕一区| 性高湖久久久久久久久aaaaa| 免费日产乱码卡一卡| 青青国产线免观看手机版精品| 国产精自产拍久久久久久蜜| 一区二区三区观看| 日本在线观看www| 亚洲午夜久久久久久尤物| 激情欧美人xxxxx| 免费精品久久久久久中文字幕| 色多多视频在线观看| 国产嫩草在线观看| 456亚洲视频| 国产视频一区在线播放| 久久久久亚洲av综合波多野结衣| 欧洲熟妇色xxxx欧美老妇多毛网站| 亚洲精品在线播放视频| 男女下面一进一出无遮挡se| 又污又爽又黄的网站| 蜜柚视频影院在线播放| 国产在视频线精品视频| 亚洲日本人成中文字幕| 国产精品无码一区二区在线| 97青青草原国产免费观看| 女博士梦莹全篇完整小说| 三浦惠理子在线播放| 我要c死你小荡货高h视频| 久久久久久久人妻无码中文字幕爆 | 精品国产福利第一区二区三区 | 亚洲最大黄色网站| 永久免费毛片在线播放| 人与动性xxxxx免费| 男女爽爽无遮挡午夜动态图| 免费观看男人免费桶女人视频 | 男女爱爱免费视频| 免费无码又爽又刺激高潮的视频| 精品亚洲福利一区二区| 十三以下岁女子毛片免费播放 | 100部毛片免费全部播放完整| 手机看片国产福利| 久久久久亚洲AV综合波多野结衣|