
DeepSeek-V3 上周發(fā)布,在代碼和數(shù)學(xué)基準(zhǔn)測試中壓過 GPT-4o 和 Claude 3.5 Sonnet 一頭。訓(xùn)練只用了 2048 塊 H800 ——這是英偉達(dá)特供中國的 " 閹割版 " 芯片,帶寬被砍到 H100 的一半。團(tuán)隊(duì)總成本 557 萬美元,不到 Meta 訓(xùn)練 Llama 3 的十分之一。
創(chuàng)始人梁文鋒的回應(yīng)很直接:「我們的目標(biāo)不是快速商業(yè)化,而是推動技術(shù)前沿?!惯@話放在硅谷可能像 PR 話術(shù),但 DeepSeek 確實(shí)沒收錢。API 定價是 Claude 的 1/50,模型權(quán)重直接掛 Hugging Face。
業(yè)內(nèi)現(xiàn)在分兩派。一派算經(jīng)濟(jì)賬:用受限硬件做出頂級性能,說明算力效率還有巨大空間。另一派算政治賬:禁令反而逼出了更省錢的訓(xùn)練方法,這劇本華盛頓沒料到。
有個細(xì)節(jié)挺有意思。DeepSeek 團(tuán)隊(duì)去年還在發(fā)論文研究 " 如何用更少的卡訓(xùn)更大的模型 ",今年就把論文變成了產(chǎn)品。H800 的庫存據(jù)說快清完了,下一版用什么練,成了新問題。