电竞竞猜赛事平台,雷火娱乐入口,电竞赛事

在小說閱讀器讀本章

去閱讀

在小說閱讀器中沉浸閱讀

當(dāng)今人工智能時代，基于國產(chǎn)算力的大模型高效訓(xùn)練和推理是國家發(fā)展戰(zhàn)略的大問題。DeepSeek-V4-Pro 在效率和性能方面是業(yè)界大模型的杰出代表。DeepSeek-V4-Pro 已經(jīng)成功完成在國產(chǎn)算力上推理部署，但訓(xùn)練還未完全實現(xiàn)國產(chǎn)算力化。

在此背景下，深圳河套學(xué)院 Al 訓(xùn)練平臺項目團隊，聯(lián)合哈爾濱工業(yè)大學(xué) ( 深圳 ) 、深圳市大數(shù)據(jù)研究院、華為 GTS ( 全球技術(shù)服務(wù) ) 、計算產(chǎn)品線、2012 實驗室，協(xié)同深智城 AI 算力平臺，面向國產(chǎn)算力大模型訓(xùn)練開展聯(lián)合攻關(guān)。目前，僅用 1 個月時間，項目已基于昇騰 910C 國產(chǎn)算力集群實現(xiàn) DeepSeek-V4-Pro 全參數(shù)續(xù)訓(xùn)練 /SFT 穩(wěn)定運行，完成長穩(wěn)訓(xùn)練 1500+ 步，訓(xùn)練 MFU 超 30%，關(guān)鍵訓(xùn)練算子效率提升 14%。

據(jù)公開資料檢索，本工作是公開可查范圍內(nèi)，業(yè)界首個由第三方機構(gòu)基于國產(chǎn)算力集群完成的 DeepSeek-V4-Pro 全參數(shù)后訓(xùn)練工程實踐，標(biāo)志著國產(chǎn) AI 基礎(chǔ)設(shè)施正在從推理部署和輕量化微調(diào)邁向超大模型全參數(shù)后訓(xùn)練。

為什么萬億級模型的 " 全參數(shù)后訓(xùn)練 " 是一塊硬骨頭？

DeepSeek-V4-Pro，一款 1.6 萬億參數(shù)級 MoE 開源旗艦?zāi)Ｐ?，采用?CSA+HCA 混合稀疏注意力、mHC 連接等新機制。相比于上一代 DeepSeek-V3/R1，它對國產(chǎn)訓(xùn)練框架提出了全方位的 " 極限挑戰(zhàn) "。

稀疏 MoE 結(jié)構(gòu)：專家路由帶來的跨節(jié)點通信，是傳統(tǒng)密集模型的數(shù)十倍；

混合稀疏注意力：注意力模式的動態(tài)切換，對算子效率和顯存管理極為敏感；

萬億參數(shù)級狀態(tài)：權(quán)重、梯度、激活、優(yōu)化器狀態(tài)——僅單副本就需數(shù) TB 顯存。

核心進展：千卡集群上，1500+ 步穩(wěn)定奔跑

經(jīng)過聯(lián)合攻關(guān)，項目已基于千卡級昇騰 910C 國產(chǎn)算力集群，成功實現(xiàn) DeepSeek-V4-Pro 在國產(chǎn)算力集群上的全參數(shù)后訓(xùn)練穩(wěn)定運行。

長穩(wěn) SFT 訓(xùn)練：完成 1500+ 步迭代，skipped iterations = 0，NaN iterations = 0；

訓(xùn)練效率：MFU（模型算力利用率）達到約 30%，關(guān)鍵訓(xùn)練算子計算效率較初始版本提升約 14%；

最終表現(xiàn)：在昇騰超節(jié)點上，MFU 穩(wěn)定在 34.9%。

與此同時，DeepSeek-V4-Flash 的全參數(shù)續(xù)訓(xùn)練與 SFT 鏈路也已同步打通。

DeepSeek-V4-Pro@昇騰超節(jié)點訓(xùn)練，MFU 最終穩(wěn)定在 34.9%

一組數(shù)據(jù)足以說明差距：在同等參數(shù)量下，業(yè)界公開的國產(chǎn)算力全參數(shù)后訓(xùn)練案例幾乎為零。而我們將一個 1.6T MoE 模型，在千卡集群上以 27 秒 / 步的穩(wěn)定節(jié)奏，連續(xù)奔跑 1500 余步——這不是實驗室的 " 單次演示 "，而是可復(fù)現(xiàn)、可工程化交付的穩(wěn)定能力。

更重要的是，該平臺已快速驗證了垂直領(lǐng)域價值。團隊圍繞工業(yè)級自動化運籌建模場景，在數(shù)周內(nèi)完成了從數(shù)據(jù)生產(chǎn)、樣本篩選、訓(xùn)練鏈路打通到效果評測的閉環(huán)驗證。這意味著：國產(chǎn)算力平臺不僅能夠 " 訓(xùn)大模型 "，更能 " 訓(xùn)好行業(yè)模型 " ——以短周期、低成本構(gòu)建面向?qū)I(yè)任務(wù)的增強能力。

三大關(guān)鍵技術(shù)突破：從 " 能跑 " 到 " 能訓(xùn)、訓(xùn)穩(wěn)、訓(xùn)優(yōu) "

本次攻關(guān)面向 DeepSeek-V4-Pro 全參數(shù)后訓(xùn)練，而非 LoRA 等少量參數(shù)微調(diào)。聯(lián)合團隊在以下三個層面實現(xiàn)了系統(tǒng)性突破：

1. 分布式承載：1.6T 參數(shù)的 " 顯存拼圖 "

洞察：萬億參數(shù)不能只靠顯存大，更要靠 " 放得巧 "。

項目成功構(gòu)建了權(quán)重、梯度、激活、優(yōu)化器狀態(tài)的分布式承載方案，使得數(shù)據(jù)并行、張量并行、流水并行與專家并行四者協(xié)同工作。每一張卡上，該放什么、怎么放、如何動態(tài)調(diào)度——這套 " 顯存拼圖 " 是穩(wěn)定訓(xùn)練的地基。

2. 稀疏與通信：讓專家不 " 吵架 "，讓注意力不 " 堵車 "

洞察： MoE 模型訓(xùn)練最怕 " 專家負載失衡 " 和 " 跨節(jié)點通信風(fēng)暴 "。

團隊針對混合稀疏注意力、MoE 路由、歸一化、矩陣計算等關(guān)鍵訓(xùn)練算子進行了深度適配與優(yōu)化，算子效率較初始版本提升 14%。同時建立了專家負載的實時監(jiān)控與均衡機制，避免部分專家過載而部分專家閑置。

3. 長穩(wěn)監(jiān)控：當(dāng)訓(xùn)練跑上幾天幾夜，誰來守夜？

洞察：全參數(shù)后訓(xùn)練最可怕的不是慢，而是 " 跑著跑著就崩了 "。

聯(lián)合團隊搭建了一套完整的監(jiān)控體系：Loss 曲線、梯度范數(shù)、專家負載、顯存占用、異常自動恢復(fù)……所有指標(biāo)均可視、可告警、可自愈。在 1500+ 步的訓(xùn)練中，未出現(xiàn)一次 Loss 失控或 NaN 值——這是 " 長穩(wěn)能力 " 最直接的證明。

實戰(zhàn)驗證：數(shù)學(xué)建模能力在后訓(xùn)練中顯著躍升

為了檢驗 DeepSeek-V4 在昇騰集群上進行全參數(shù)后訓(xùn)練的真實價值，項目設(shè)計了一項 " 硬核 " 實驗：增強大模型的數(shù)學(xué)建模能力。

團隊搭建了一條 SFT 建模數(shù)據(jù)生產(chǎn) workflow，產(chǎn)出 3000 條高質(zhì)量數(shù)學(xué)建模任務(wù) SFT 樣本，覆蓋 4 類目標(biāo)任務(wù)和 3 種問題形態(tài)。隨后，對 DeepSeek-V4 進行后訓(xùn)練。

優(yōu)化建模 SFT 數(shù)據(jù)飛輪流程

訓(xùn)練曲線給出了清晰的信號：

LM loss 從高位快速下降，最終收斂至 0.2056；

MTP-1 loss 收斂至 0.2538；

梯度范數(shù)平穩(wěn)下降，未出現(xiàn)震蕩或發(fā)散；

單步耗時穩(wěn)定在 27 秒左右。

3K SFT 訓(xùn)練過程概覽

更直觀的結(jié)果來自 Benchmark 對比：

四項關(guān)鍵指標(biāo)均顯著超越原模型，其中 ORGEval WL 提升超過 5 個百分點。這意味著：在國產(chǎn)算力上完成的全參數(shù)后訓(xùn)練，不僅能 " 跑穩(wěn) "，更能 " 訓(xùn)強 " ——模型在復(fù)雜推理任務(wù)上的能力得到了真實增益。

以戰(zhàn)育才：在真實攻關(guān)中培養(yǎng) " 能訓(xùn)大模型 " 的人

本次攻關(guān)的另一個獨特價值，在于它是一次人才培養(yǎng)模式的范式實驗。

深圳河套學(xué)院將萬億級模型訓(xùn)練攻關(guān)作為 " 練兵場 "，把學(xué)生直接嵌入國產(chǎn)算力真實訓(xùn)練場景。截至目前，項目已培養(yǎng)學(xué)生 42 名，形成了由青年教師指導(dǎo)、博士生核心攻堅、工程團隊支撐的協(xié)同培養(yǎng)機制。

在這一過程中，同學(xué)們不只是參與項目進展，更是承擔(dān)具體任務(wù)的 " 戰(zhàn)斗員 "：有的負責(zé)訓(xùn)練數(shù)據(jù)構(gòu)造與樣本質(zhì)量分析，有的負責(zé)分布式并行策略驗證，有的跟進長穩(wěn)監(jiān)控與異常恢復(fù)，有的撰寫技術(shù)報告與工程文檔。

一次訓(xùn)練啟動、一次報錯定位、一次參數(shù)調(diào)整、一次結(jié)果復(fù)盤——在這些真實而瑣碎的工程實踐中，學(xué)生們從 " 會調(diào)用大模型 " 真正走向了 " 理解并參與訓(xùn)練大模型 "。

能力提升體現(xiàn)在三個方面：

建立了對國產(chǎn)算力大模型訓(xùn)練全鏈路的系統(tǒng)性認(rèn)識；

掌握了從領(lǐng)域數(shù)據(jù)到模型能力增強的全過程實操能力；

在真實項目中形成了問題拆解、實驗設(shè)計、訓(xùn)練復(fù)盤與團隊協(xié)作的工程素養(yǎng)。

后續(xù)，這些真實任務(wù)將沉淀為課程案例、實訓(xùn)資源和學(xué)生科研項目，將持續(xù)支撐深圳河套學(xué)院培養(yǎng) " 懂模型、懂系統(tǒng)、能工程、敢攻關(guān) " 的高水平復(fù)合型 AI 人才。

項目團隊開展技術(shù)復(fù)盤與學(xué)生實戰(zhàn)培養(yǎng)

未來展望：從 " 全參數(shù)后訓(xùn)練 " 走向 "Agentic RL + 超長上下文 "

下一階段，深圳河套學(xué)院將繼續(xù)聯(lián)合哈爾濱工業(yè)大學(xué)（深圳）、深圳市大數(shù)據(jù)研究院、華為 GTS ( 全球技術(shù)服務(wù) ) 、計算產(chǎn)品線、2012 實驗室、深智城等合作伙伴，在現(xiàn)有全參數(shù)續(xù)訓(xùn)練 /SFT 鏈路基礎(chǔ)上，重點推進三項任務(wù)：

1. 訓(xùn)練效率再突破

持續(xù)優(yōu)化訓(xùn)練框架與關(guān)鍵算子，進一步提升訓(xùn)練效率（MFU），降低萬億模型訓(xùn)練的算力成本。

2. 超長上下文訓(xùn)練

支撐 512K 至 1M 超長上下文訓(xùn)練，提升復(fù)雜專業(yè)任務(wù)中的長文檔理解與長鏈路推理能力；

3. 強化學(xué)習(xí)后訓(xùn)練閉環(huán)

突破 DeepSeek-V4-Pro 強化學(xué)習(xí)后訓(xùn)練技術(shù)，圍繞數(shù)學(xué)建模優(yōu)化、代碼 Agent、長上下文推理等任務(wù)，構(gòu)建 rollout 生成 → 工具執(zhí)行 → reward/verifier → 策略更新 → 評測反饋的完整 Agentic RL 鏈路。

同時，項目將堅定推進技術(shù)開源與人才培養(yǎng)沉淀：

分階段開放訓(xùn)練配置、評測腳本、合成數(shù)據(jù)、技術(shù)報告及相關(guān)模型與框架能力；

將真實訓(xùn)練任務(wù)、數(shù)據(jù)構(gòu)造方法、故障排查案例和評測流程轉(zhuǎn)化為課程案例與實訓(xùn)任務(wù)；

持續(xù)完善 " 國產(chǎn)算力支撐、真實任務(wù)牽引、學(xué)生團隊實戰(zhàn)、工程能力沉淀 " 的培養(yǎng)路徑。

在此基礎(chǔ)上，項目還將依托這一訓(xùn)練場，開展新一代通用人工智能的基礎(chǔ)理論、新范式和新架構(gòu)的研究——包括符號、連接與行為主義有機融合，從單一智能體到群體智能再到人機融合的建模探索。

結(jié)語

DeepSeek-V4-Pro 在國產(chǎn)算力上的全參數(shù)后訓(xùn)練，不是一次孤立的工程突破。

它驗證了一條道路：國產(chǎn)開源旗艦?zāi)Ｐ?+ 國產(chǎn) AI 算力 + 高水平訓(xùn)練團隊 + 國產(chǎn)廠商技術(shù)支持——這個四角閉環(huán)，是可持續(xù)的、可復(fù)制的、可信任的。

它發(fā)出了一聲宣告：國產(chǎn) AI 基礎(chǔ)設(shè)施，從今天起，不再只是 " 能推理 "，而是真正 " 能訓(xùn)練、能訓(xùn)穩(wěn)、能訓(xùn)優(yōu) "。

更重要的是，它點燃了一個希望：在下一代通用人工智能的征途上，中國的高校、科研機構(gòu)和年輕學(xué)子，可以站在自己的算力土壤上，開展人工智能的研究，親手訓(xùn)練屬于自己的萬億模型。

這不是終點，而是發(fā)令槍。

? 項目后續(xù)將逐步開源技術(shù)報告、訓(xùn)練配置與評測腳本，敬請關(guān)注深圳河套學(xué)院官方發(fā)布。

电竞比分网-中国电竞赛事及体育赛事平台

宙世代元宇宙

元宇宙黨建解決方案

元宇宙文旅解決方案

元宇宙展廳解決方案

元宇宙行業(yè)峰會解決方案

元宇宙營銷解決方案

元宇宙會展解決方案

元宇宙演藝節(jié)目解決方案

元宇宙博物館解決方案

元宇宙圖書館解決方案

元宇宙校園解決方案

元宇宙企業(yè)展廳解決方案

元宇宙藝術(shù)展解決方案

元宇宙電商解決方案

融媒體解決方案

ZAKER智慧云

媒體解決方案

黨建解決方案

公檢法解決方案

智慧交通解決方案

高校解決方案

AI視頻

AI視頻剪輯

視頻定制服務(wù)

AI智能客服

我的訂閱

SLAI 基于國產(chǎn)算力集群完成 DeepSeek-V4-Pro 全參數(shù)后訓(xùn)練

宙世代

一起剪

相關(guān)閱讀

NV一代神卡的魅力！黃仁勛：我最喜歡顯卡是1080 Ti 它改變了一切

省了一筆！iPhone 18 Pro Max實測厚度8.75mm：和上代一致 老款手機殼直接通用

AI基建催生“算力金屬”熱潮，供給端“硬約束”成為核心邏輯

歷史性突破！京東方率先量產(chǎn)8.6代OLED：國產(chǎn)面板正式彎道超車三星

郭明錤：蘋果眼鏡路線圖生變 Vision Pro后續(xù)版本被砍

Meta推出AI客服代理 欲激活旗下應(yīng)用千億美元商業(yè)潛力

蘋果實測新OLED背板 Apple Watch續(xù)航升級在即

告別OpenAI依賴：微軟全線加碼智能體

華夏基金DeepTalk解碼“韜（τ）定律”，深談芯片設(shè)計與科技范式革新

躋身全球第一梯隊！京東開源JoyAI-Echo框架：解決長視頻生成三大難題

比特幣堅定持有者轉(zhuǎn)為賣家，加密貨幣價格觸及新低

黑莓股價觸及近一年新高后盤整：漲勢能否持續(xù)？

華為發(fā)布新一代組串式構(gòu)網(wǎng)PCS解決方案

AI開辟新應(yīng)用場景，超級電容企業(yè)“訂單處于歷史較高水平”

芯片巨頭達成新共識 AI Agent時代或全面到來

最新評論

雷峰網(wǎng)

熱門推薦

企業(yè)資訊

NV一代神卡的魅力！黃仁勛：我最喜歡顯卡是1080 Ti 它改變了一切

省了一筆！iPhone 18 Pro Max實測厚度8.75mm：和上代一致老款手機殼直接通用

AI基建催生“算力金屬”熱潮，供給端“硬約束”成為核心邏輯

歷史性突破！京東方率先量產(chǎn)8.6代OLED：國產(chǎn)面板正式彎道超車三星

Meta推出AI客服代理欲激活旗下應(yīng)用千億美元商業(yè)潛力

華夏基金DeepTalk解碼“韜（τ）定律”，深談芯片設(shè)計與科技范式革新

比特幣堅定持有者轉(zhuǎn)為賣家，加密貨幣價格觸及新低