电竞比分网-中国电竞赛事及体育赛事平台

關(guān)于ZAKER Skills 合作

SLAI 基于國產(chǎn)算力集群完成 DeepSeek-V4-Pro 全參數(shù)后訓(xùn)練

在小說閱讀器讀本章

去閱讀

在小說閱讀器中沉浸閱讀

當(dāng)今人工智能時代,基于國產(chǎn)算力的大模型高效訓(xùn)練和推理是國家發(fā)展戰(zhàn)略的大問題。DeepSeek-V4-Pro 在效率和性能方面是業(yè)界大模型的杰出代表。DeepSeek-V4-Pro 已經(jīng)成功完成在國產(chǎn)算力上推理部署,但訓(xùn)練還未完全實現(xiàn)國產(chǎn)算力化。

在此背景下,深圳河套學(xué)院 Al 訓(xùn)練平臺項目團隊,聯(lián)合哈爾濱工業(yè)大學(xué) ( 深圳 ) 、深圳市大數(shù)據(jù)研究院、華為 GTS ( 全球技術(shù)服務(wù) ) 、計算產(chǎn)品線、2012 實驗室,協(xié)同深智城 AI 算力平臺,面向國產(chǎn)算力大模型訓(xùn)練開展聯(lián)合攻關(guān)。目前,僅用 1 個月時間,項目已基于昇騰 910C 國產(chǎn)算力集群實現(xiàn) DeepSeek-V4-Pro 全參數(shù)續(xù)訓(xùn)練 /SFT 穩(wěn)定運行,完成長穩(wěn)訓(xùn)練 1500+ 步,訓(xùn)練 MFU 超 30%,關(guān)鍵訓(xùn)練算子效率提升 14%。

據(jù)公開資料檢索,本工作是公開可查范圍內(nèi),業(yè)界首個由第三方機構(gòu)基于國產(chǎn)算力集群完成的 DeepSeek-V4-Pro 全參數(shù)后訓(xùn)練工程實踐,標(biāo)志著國產(chǎn) AI 基礎(chǔ)設(shè)施正在從推理部署和輕量化微調(diào)邁向超大模型全參數(shù)后訓(xùn)練。

01

為什么萬億級模型的 " 全參數(shù)后訓(xùn)練 " 是一塊硬骨頭?

DeepSeek-V4-Pro,一款 1.6 萬億參數(shù)級 MoE 開源旗艦?zāi)P?,采用?CSA+HCA 混合稀疏注意力、mHC 連接等新機制。相比于上一代 DeepSeek-V3/R1,它對國產(chǎn)訓(xùn)練框架提出了全方位的 " 極限挑戰(zhàn) "。

稀疏 MoE 結(jié)構(gòu):專家路由帶來的跨節(jié)點通信,是傳統(tǒng)密集模型的數(shù)十倍;

混合稀疏注意力:注意力模式的動態(tài)切換,對算子效率和顯存管理極為敏感;

萬億參數(shù)級狀態(tài):權(quán)重、梯度、激活、優(yōu)化器狀態(tài)——僅單副本就需數(shù) TB 顯存。

02

核心進展:千卡集群上,1500+ 步穩(wěn)定奔跑

經(jīng)過聯(lián)合攻關(guān),項目已基于千卡級昇騰 910C 國產(chǎn)算力集群,成功實現(xiàn) DeepSeek-V4-Pro 在國產(chǎn)算力集群上的全參數(shù)后訓(xùn)練穩(wěn)定運行。

長穩(wěn) SFT 訓(xùn)練:完成 1500+ 步迭代,skipped iterations = 0,NaN iterations = 0;

訓(xùn)練效率:MFU(模型算力利用率)達到約 30%,關(guān)鍵訓(xùn)練算子計算效率較初始版本提升約 14%;

最終表現(xiàn):在昇騰超節(jié)點上,MFU 穩(wěn)定在 34.9%。

與此同時,DeepSeek-V4-Flash 的全參數(shù)續(xù)訓(xùn)練與 SFT 鏈路也已同步打通。

DeepSeek-V4-Pro@昇騰超節(jié)點訓(xùn)練,MFU 最終穩(wěn)定在 34.9%

一組數(shù)據(jù)足以說明差距:在同等參數(shù)量下,業(yè)界公開的國產(chǎn)算力全參數(shù)后訓(xùn)練案例幾乎為零。而我們將一個 1.6T MoE 模型,在千卡集群上以 27 秒 / 步的穩(wěn)定節(jié)奏,連續(xù)奔跑 1500 余步——這不是實驗室的 " 單次演示 ",而是可復(fù)現(xiàn)、可工程化交付的穩(wěn)定能力。

更重要的是,該平臺已快速驗證了垂直領(lǐng)域價值。團隊圍繞工業(yè)級自動化運籌建模場景,在數(shù)周內(nèi)完成了從數(shù)據(jù)生產(chǎn)、樣本篩選、訓(xùn)練鏈路打通到效果評測的閉環(huán)驗證。這意味著:國產(chǎn)算力平臺不僅能夠 " 訓(xùn)大模型 ",更能 " 訓(xùn)好行業(yè)模型 " ——以短周期、低成本構(gòu)建面向?qū)I(yè)任務(wù)的增強能力。

03

三大關(guān)鍵技術(shù)突破:從 " 能跑 " 到 " 能訓(xùn)、訓(xùn)穩(wěn)、訓(xùn)優(yōu) "

本次攻關(guān)面向 DeepSeek-V4-Pro 全參數(shù)后訓(xùn)練,而非 LoRA 等少量參數(shù)微調(diào)。聯(lián)合團隊在以下三個層面實現(xiàn)了系統(tǒng)性突破:

1. 分布式承載:1.6T 參數(shù)的 " 顯存拼圖 "

洞察: 萬億參數(shù)不能只靠顯存大,更要靠 " 放得巧 "。

項目成功構(gòu)建了權(quán)重、梯度、激活、優(yōu)化器狀態(tài)的分布式承載方案,使得數(shù)據(jù)并行、張量并行、流水并行與專家并行四者協(xié)同工作。每一張卡上,該放什么、怎么放、如何動態(tài)調(diào)度——這套 " 顯存拼圖 " 是穩(wěn)定訓(xùn)練的地基。

2. 稀疏與通信:讓專家不 " 吵架 ",讓注意力不 " 堵車 "

洞察: MoE 模型訓(xùn)練最怕 " 專家負載失衡 " 和 " 跨節(jié)點通信風(fēng)暴 "。

團隊針對混合稀疏注意力、MoE 路由、歸一化、矩陣計算等關(guān)鍵訓(xùn)練算子進行了深度適配與優(yōu)化,算子效率較初始版本提升 14%。同時建立了專家負載的實時監(jiān)控與均衡機制,避免部分專家過載而部分專家閑置。

3. 長穩(wěn)監(jiān)控:當(dāng)訓(xùn)練跑上幾天幾夜,誰來守夜?

洞察: 全參數(shù)后訓(xùn)練最可怕的不是慢,而是 " 跑著跑著就崩了 "。

聯(lián)合團隊搭建了一套完整的監(jiān)控體系:Loss 曲線、梯度范數(shù)、專家負載、顯存占用、異常自動恢復(fù)……所有指標(biāo)均可視、可告警、可自愈。在 1500+ 步的訓(xùn)練中,未出現(xiàn)一次 Loss 失控或 NaN 值——這是 " 長穩(wěn)能力 " 最直接的證明。

04

實戰(zhàn)驗證:數(shù)學(xué)建模能力在后訓(xùn)練中顯著躍升

為了檢驗 DeepSeek-V4 在昇騰集群上進行全參數(shù)后訓(xùn)練的真實價值,項目設(shè)計了一項 " 硬核 " 實驗:增強大模型的數(shù)學(xué)建模能力。

團隊搭建了一條 SFT 建模數(shù)據(jù)生產(chǎn) workflow,產(chǎn)出 3000 條高質(zhì)量數(shù)學(xué)建模任務(wù) SFT 樣本,覆蓋 4 類目標(biāo)任務(wù)和 3 種問題形態(tài)。隨后,對 DeepSeek-V4 進行后訓(xùn)練。

優(yōu)化建模 SFT 數(shù)據(jù)飛輪流程

訓(xùn)練曲線給出了清晰的信號:

LM loss 從高位快速下降,最終收斂至 0.2056;

MTP-1 loss 收斂至 0.2538;

梯度范數(shù)平穩(wěn)下降,未出現(xiàn)震蕩或發(fā)散;

單步耗時穩(wěn)定在 27 秒左右。

3K SFT 訓(xùn)練過程概覽

更直觀的結(jié)果來自 Benchmark 對比:

四項關(guān)鍵指標(biāo)均顯著超越原模型,其中 ORGEval WL 提升超過 5 個百分點。這意味著:在國產(chǎn)算力上完成的全參數(shù)后訓(xùn)練,不僅能 " 跑穩(wěn) ",更能 " 訓(xùn)強 " ——模型在復(fù)雜推理任務(wù)上的能力得到了真實增益。

05

以戰(zhàn)育才:在真實攻關(guān)中培養(yǎng) " 能訓(xùn)大模型 " 的人

本次攻關(guān)的另一個獨特價值,在于它是一次人才培養(yǎng)模式的范式實驗。

深圳河套學(xué)院將萬億級模型訓(xùn)練攻關(guān)作為 " 練兵場 ",把學(xué)生直接嵌入國產(chǎn)算力真實訓(xùn)練場景。截至目前,項目已培養(yǎng)學(xué)生 42 名,形成了由青年教師指導(dǎo)、博士生核心攻堅、工程團隊支撐的協(xié)同培養(yǎng)機制。

在這一過程中,同學(xué)們不只是參與項目進展,更是承擔(dān)具體任務(wù)的 " 戰(zhàn)斗員 ":有的負責(zé)訓(xùn)練數(shù)據(jù)構(gòu)造與樣本質(zhì)量分析,有的負責(zé)分布式并行策略驗證,有的跟進長穩(wěn)監(jiān)控與異常恢復(fù),有的撰寫技術(shù)報告與工程文檔。

一次訓(xùn)練啟動、一次報錯定位、一次參數(shù)調(diào)整、一次結(jié)果復(fù)盤——在這些真實而瑣碎的工程實踐中,學(xué)生們從 " 會調(diào)用大模型 " 真正走向了 " 理解并參與訓(xùn)練大模型 "。

能力提升體現(xiàn)在三個方面:

建立了對國產(chǎn)算力大模型訓(xùn)練全鏈路的系統(tǒng)性認(rèn)識;

掌握了從領(lǐng)域數(shù)據(jù)到模型能力增強的全過程實操能力;

在真實項目中形成了問題拆解、實驗設(shè)計、訓(xùn)練復(fù)盤與團隊協(xié)作的工程素養(yǎng)。

后續(xù),這些真實任務(wù)將沉淀為課程案例、實訓(xùn)資源和學(xué)生科研項目,將持續(xù)支撐深圳河套學(xué)院培養(yǎng) " 懂模型、懂系統(tǒng)、能工程、敢攻關(guān) " 的高水平復(fù)合型 AI 人才。

項目團隊開展技術(shù)復(fù)盤與學(xué)生實戰(zhàn)培養(yǎng)

06

未來展望:從 " 全參數(shù)后訓(xùn)練 " 走向 "Agentic RL + 超長上下文 "

下一階段,深圳河套學(xué)院將繼續(xù)聯(lián)合哈爾濱工業(yè)大學(xué)(深圳)、深圳市大數(shù)據(jù)研究院、華為 GTS ( 全球技術(shù)服務(wù) ) 、計算產(chǎn)品線、2012 實驗室、深智城等合作伙伴,在現(xiàn)有全參數(shù)續(xù)訓(xùn)練 /SFT 鏈路基礎(chǔ)上,重點推進三項任務(wù):

1. 訓(xùn)練效率再突破

持續(xù)優(yōu)化訓(xùn)練框架與關(guān)鍵算子,進一步提升訓(xùn)練效率(MFU),降低萬億模型訓(xùn)練的算力成本。

2. 超長上下文訓(xùn)練

支撐 512K 至 1M 超長上下文訓(xùn)練,提升復(fù)雜專業(yè)任務(wù)中的長文檔理解與長鏈路推理能力;

3. 強化學(xué)習(xí)后訓(xùn)練閉環(huán)

突破 DeepSeek-V4-Pro 強化學(xué)習(xí)后訓(xùn)練技術(shù),圍繞數(shù)學(xué)建模優(yōu)化、代碼 Agent、長上下文推理等任務(wù),構(gòu)建 rollout 生成 → 工具執(zhí)行 → reward/verifier → 策略更新 → 評測反饋的完整 Agentic RL 鏈路。

同時,項目將堅定推進技術(shù)開源與人才培養(yǎng)沉淀:

分階段開放訓(xùn)練配置、評測腳本、合成數(shù)據(jù)、技術(shù)報告及相關(guān)模型與框架能力;

將真實訓(xùn)練任務(wù)、數(shù)據(jù)構(gòu)造方法、故障排查案例和評測流程轉(zhuǎn)化為課程案例與實訓(xùn)任務(wù);

持續(xù)完善 " 國產(chǎn)算力支撐、真實任務(wù)牽引、學(xué)生團隊實戰(zhàn)、工程能力沉淀 " 的培養(yǎng)路徑。

在此基礎(chǔ)上,項目還將依托這一訓(xùn)練場,開展新一代通用人工智能的基礎(chǔ)理論、新范式和新架構(gòu)的研究——包括符號、連接與行為主義有機融合,從單一智能體到群體智能再到人機融合的建模探索。

結(jié)語

DeepSeek-V4-Pro 在國產(chǎn)算力上的全參數(shù)后訓(xùn)練,不是一次孤立的工程突破。

它驗證了一條道路:國產(chǎn)開源旗艦?zāi)P?+ 國產(chǎn) AI 算力 + 高水平訓(xùn)練團隊 + 國產(chǎn)廠商技術(shù)支持——這個四角閉環(huán),是可持續(xù)的、可復(fù)制的、可信任的。

它發(fā)出了一聲宣告:國產(chǎn) AI 基礎(chǔ)設(shè)施,從今天起,不再只是 " 能推理 ",而是真正 " 能訓(xùn)練、能訓(xùn)穩(wěn)、能訓(xùn)優(yōu) "。

更重要的是,它點燃了一個希望:在下一代通用人工智能的征途上,中國的高校、科研機構(gòu)和年輕學(xué)子,可以站在自己的算力土壤上,開展人工智能的研究,親手訓(xùn)練屬于自己的萬億模型。

這不是終點,而是發(fā)令槍。

? 項目后續(xù)將逐步開源技術(shù)報告、訓(xùn)練配置與評測腳本,敬請關(guān)注深圳河套學(xué)院官方發(fā)布。

相關(guān)標(biāo)簽

相關(guān)閱讀

最新評論

沒有更多評論了
雷峰網(wǎng)

雷峰網(wǎng)

讀懂智能&未來

訂閱

覺得文章不錯,微信掃描分享好友

掃碼分享

企業(yè)資訊

查看更多內(nèi)容