《電子技術應用》
您所在的位置:首頁 > 人工智能 > 業界動態 > 昆侖萬維開源2千億稀疏大模型天工MoE

昆侖萬維開源2千億稀疏大模型天工MoE

全球首創能用4090推理
2024-06-04
來源:極客網

2024年6月3日,昆侖萬維宣布開源 2 千億稀疏大模型 Skywork-MoE , 性能強勁, 同時推理成本更低。Skywork-MoE 基于之前昆侖萬維開源的 Skywork-13B 模型中間 checkpoint 擴展而來,是首個完整將 MoE Upcycling 技術應用并落地的開源千億 MoE大模型,也是首個支持用單臺 4090 服務器推理的開源千億 MoE大模型。

開源地址:

Skywork-MoE 的模型權重、技術報告完全開源,免費商用,無需申請:

?模型權重下載:

?https://huggingface.co/Skywork/Skywork-MoE-base

?https://huggingface.co/Skywork/Skywork-MoE-Base-FP8

?模型開源倉庫:https://github.com/SkyworkAI/Skywork-MoE

?模型技術報告:https://github.com/SkyworkAI/Skywork-MoE/blob/main/skywork-moe-tech-report.pdf

?模型推理代碼:(支持 8x4090 服務器上 8 bit 量化加載推理) https://github.com/SkyworkAI/vllm

模型架構:

本次開源的 Skywork-MoE 模型隸屬于天工 3.0 的研發模型系列,是其中的中檔大小模型(Skywork-MoE-Medium),模型的總參數量為 146B,激活參數量 22B,共有 16 個 Expert,每個 Expert 大小為 13B,每次激活其中的 2 個 Expert。

天工 3.0 還訓練了 75B (Skywork-MoE-Small) 和 400B (Skywork-MoE-Large)兩檔 MoE 模型,并不在此次開源之列。

模型能力:

我們基于目前各大主流模型評測榜單評測了 Skywork-MoE,在相同的激活參數量 20B(推理計算量)下,Skywork-MoE 能力在行業前列,接近 70B 的 Dense 模型。使得模型的推理成本有近 3 倍的下降。同時 Skywork-MoE 的總參數大小比 DeepSeekV2 的總參數大小要小 1/3,用更小的參數規模做到了相近的能力。


技術創新:

為了解決 MoE 模型訓練困難,泛化性能差的問題,相較于 Mixtral-MoE, Skywork-MoE 設計了兩種訓練優化算法:

1.Gating Logits 歸一化操作

我們在 Gating Layer 的 token 分發邏輯處新增了一個 normalization 操作,使得 Gating Layer 的參數學習更加趨向于被選中的 top-2 experts,增加 MoE 模型對于 top-2 的置信度:


2.自適應的 Aux Loss

有別于傳統的固定系數(固定超參)的 aux loss, 我們在 MoE 訓練的不同階段讓模型自適應的選擇合適的 aux loss 超參系數,從而讓 Drop Token Rate 保持在合適的區間內,既能做到 expert 分發的平衡,又能讓 expert 學習具備差異化,從而提升模型整體的性能和泛化水平。在 MoE 訓練的前期,由于參數學習不到位,導致 Drop Token Rate 太高(token 分布差異太大),此時需要較大的 aux loss 幫助 token load balance;在 MoE 訓練的后期,我們希望 Expert 之間仍保證一定的區分度,避免 Gating 傾向為隨機分發 Token,因此需要較低的 aux loss 降低糾偏。


訓練 Infra

如何對 MoE 模型高效的進行大規模分布式訓練是一個有難度的挑戰,目前社區還沒有一個最佳實踐。Skywork-MoE 提出了兩個重要的并行優化設計,從而在千卡集群上實現了 MFU 38% 的訓練吞吐,其中 MFU 以 22B 的激活參數計算理論計算量。

1. Expert Data Parallel

區別于 Megatron-LM 社區已有的 EP(Expert Parallel)和 ETP(Expert Tensor Parallel)設計,我們提出了一種稱之為 Expert Data Parallel 的并行設計方案,這種并行方案可以在 Expert 數量較小時仍能高效的切分模型,對 Expert 引入的 all2all 通信也可以最大程度的優化和掩蓋。相較于 EP 對 GPU 數量的限制和 ETP 在千卡集群上的低效, EDP 可以較好的解決大規模分布式訓練 MoE 的并行痛點,同時 EDP 的設計簡單、魯棒、易擴展,可以較快的實現和驗證。


一個最簡單的 EDP 的例子,兩卡情況下 TP = 2, EP = 2, 其中 Attention 部分采用 Tensor Parallel , Expert 部分采用 Expert Parallel

2.非均勻切分流水并行

由于 first stage 的 Embedding 計算和 last stage 的 Loss 計算,以及 Pipeline Buffer 的存在, 流水并行下均勻切分 Layer 時的各 stage 計算負載和顯存負載均有較明顯的不均衡情況。我們提出了非均勻的流水并行切分和重計算 Layer 分配方式,使得總體的計算/顯存負載更均衡,約有 10% 左右的端到端訓練吞吐提升。


比較均勻切分和非均勻切分下的流水并行氣泡:對于一個 24 層 Layer 的 LLM, (a) 是均勻切分成 4 個 stage,每個 stage 的 layer 數量是:[6, 6, 6, 6].(b) 是經過優化后的非均勻切分方式,切成 5 個 stage, 每個 stage 的 layer 數量是:[5, 5, 5, 5, 4] , 在中間流水打滿的階段,非均勻切分的氣泡更低。

MoE Know-how

此外,Skywork-MoE 還通過一系列基于 Scaling Laws 的實驗,探究哪些約束會影響 Upcycling 和 From Scratch 訓練 MoE 模型的好壞。


一個可以遵循的經驗規則是:如果訓練 MoE 模型的 FLOPs 是訓練 Dense 模型的 2 倍以上,那么選擇 from Scratch 訓練 MoE 會更好,否則的話,選擇 Upcycling 訓練 MoE 可以明顯減少訓練成本。

4090 推理

Skywork-MoE 是目前能在 8x4090 服務器上推理的最大的開源 MoE 模型。8x4090 服務器一共有 192GB 的 GPU 顯存,在 FP8 量化下(weight 占用 146GB),使用我們首創的非均勻 Tensor Parallel 并行推理方式,Skywork-MoE 可以在合適的 batch size 內達到 2200 tokens/s 的吞吐。天工團隊完整開源了相關的推理框架代碼和安裝環境,詳情參見:https://github.com/SkyworkAI/Skywork-MoE

結語

我們希望本次開源的 Skywork-MoE 模型、技術報告和相關的實驗結果可以給開源社區貢獻更多的 MoE 訓練經驗和 Know-how,包括模型結構、超參選擇、訓練技巧、訓練推理加速等各方面, 探索用更低的訓練推理成本訓更大更強的模型,在通往 AGI 的道路上貢獻一點力量。


Magazine.Subscription.jpg

本站內容除特別聲明的原創文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯系電話:010-82306118;郵箱:aet@chinaaet.com。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
欧美午夜片在线观看| 亚洲激情视频| 欧美粗暴jizz性欧美20| 久久久久久综合| 久久高清一区| 欧美在线你懂的| 欧美在线看片| 久久精品91久久香蕉加勒比 | 狼人社综合社区| 久久久久久久综合| 久久―日本道色综合久久| 久久精品免费电影| 久久中文在线| 男人的天堂亚洲| 欧美成在线观看| 欧美精品免费观看二区| 欧美精品久久久久久久久老牛影院| 欧美精品一区在线发布| 欧美伦理在线观看| 欧美三级在线| 国产精品入口夜色视频大尺度| 国产精品一区二区你懂的| 国产日产精品一区二区三区四区的观看方式 | 99国产精品国产精品毛片| 日韩网站在线看片你懂的| 一区二区激情| 亚洲资源av| 久久精品二区| 亚洲精品专区| 亚洲一区精品在线| 欧美一区二区在线看| 久久久综合网站| 欧美韩国在线| 国产精品成人免费| 国产日韩欧美在线播放| 在线观看成人av| 日韩亚洲欧美一区二区三区| 亚洲一区二区三区高清| 欧美在线999| 日韩视频在线一区二区| 亚洲欧美成人网| 久久婷婷人人澡人人喊人人爽| 欧美国产三区| 国产精品三级视频| 在线播放不卡| 一本大道久久a久久精品综合| 午夜精品区一区二区三| 亚洲国产日韩一级| 亚洲午夜av在线| 久久精品免费播放| 欧美黑人在线播放| 国产欧美综合在线| 亚洲高清激情| 亚洲自拍偷拍色片视频| 亚洲国产日韩一级| 亚洲欧美成人精品| 欧美成人免费在线| 国产精品日韩专区| 亚洲国产一区二区三区青草影视| 亚洲视频免费在线| 亚洲高清不卡av| 亚洲一级网站| 媚黑女一区二区| 国产精品久久久久久久久久久久久| 国产综合久久久久影院| 99亚洲一区二区| 亚洲第一网站| 午夜精品福利视频| 欧美精品97| 国产一区二区欧美日韩| 一本色道久久加勒比88综合| 亚洲国产精品一区二区久| 午夜精品亚洲一区二区三区嫩草| 欧美成人情趣视频| 国产亚洲欧洲| 亚洲婷婷免费| 日韩一区二区精品葵司在线| 久久久久久午夜| 国产精品久久波多野结衣| 亚洲欧洲精品一区二区三区 | 亚洲一区二区精品在线| 免费在线观看精品| 国产视频一区二区在线观看| 一区电影在线观看| 日韩视频精品| 久久一区二区三区四区五区| 国产精品亚洲综合一区在线观看| 亚洲精品中文字幕在线| 亚洲高清视频在线观看| 欧美在线免费一级片| 欧美午夜精品久久久久久人妖| 亚洲动漫精品| 亚洲成人在线视频网站| 欧美专区18| 国产精品普通话对白| 一本到12不卡视频在线dvd| 日韩视频一区二区三区在线播放免费观看| 久久人91精品久久久久久不卡| 国产精品日本欧美一区二区三区| 日韩香蕉视频| 一本不卡影院| 欧美日韩1080p| 91久久国产精品91久久性色| 亚洲国产黄色| 狂野欧美激情性xxxx| 国内精品久久久久久久果冻传媒| 亚洲欧美中文在线视频| 午夜宅男欧美| 国产精品久久婷婷六月丁香| 一区二区久久| 亚洲在线黄色| 国产精品久久久久毛片软件| 在线一区日本视频| 中文亚洲欧美| 欧美午夜片欧美片在线观看| 在线亚洲激情| 亚洲欧美另类综合偷拍| 国产精品麻豆va在线播放 | 午夜精品区一区二区三| 久久国产日韩| 狠狠久久亚洲欧美专区| 亚洲第一天堂av| 免费欧美电影| 亚洲人成在线播放网站岛国| 亚洲精品影视在线观看| 欧美日韩 国产精品| 99成人在线| 亚洲欧美综合国产精品一区| 国产精品主播| 欧美一区中文字幕| 美女久久网站| 91久久中文| 亚洲一区成人| 国产精品一区二区在线观看不卡 | 亚洲第一黄色| 蜜臀久久久99精品久久久久久| 亚洲国产99精品国自产| 99精品99| 国产精品久久久久久久久久妞妞| 亚洲欧美精品一区| 久久免费99精品久久久久久| 一区二区在线不卡| 亚洲精选大片| 国产精品大全| 午夜伦理片一区| 久久久久免费视频| 91久久精品国产91久久| 亚洲在线观看免费视频| 国产亚洲午夜| 99国内精品久久| 国产精品亚洲不卡a| 久久精品国产一区二区三| 欧美激情欧美激情在线五月| 在线一区欧美| 久久全国免费视频| 亚洲免费成人| 欧美一区二区私人影院日本| 精品999久久久| 在线视频精品一| 国产三级精品三级| 亚洲卡通欧美制服中文| 国产精品老女人精品视频| 久久精品亚洲乱码伦伦中文| 欧美久久久久久久久久| 亚洲欧美激情诱惑| 欧美国产欧美亚州国产日韩mv天天看完整| 99视频精品免费观看| 久久久久久国产精品mv| 亚洲毛片在线观看| 久久成人国产精品| 亚洲精品一区二区三区av| 香港成人在线视频| 亚洲电影在线看| 欧美在线视频一区二区| 最新国产の精品合集bt伙计| 欧美一站二站| 日韩视频―中文字幕| 久久人人97超碰人人澡爱香蕉| 亚洲美女在线观看| 久久亚洲综合网| 一区二区三区不卡视频在线观看| 久久久国际精品| 在线综合欧美| 欧美成人高清视频| 亚洲欧美激情视频| 欧美日韩卡一卡二| 亚洲国产精品精华液2区45| 国产精品久久久久永久免费观看| 亚洲欧洲精品天堂一级| 国产精品免费一区豆花| 99爱精品视频| 伊人精品久久久久7777| 午夜在线一区| 日韩亚洲欧美精品| 免费欧美在线视频| 性视频1819p久久| 欧美日韩精品免费观看视一区二区 | 亚洲午夜免费视频| 亚洲国产精品久久久久婷婷884| 欧美在线亚洲|