电竞比分网-中国电竞赛事及体育赛事平台

關(guān)于ZAKER 合作
硅嶼手記 昨天

DeepSeek 用被禁芯片煉出頂級模型 , 還白送

美國芯片禁令剛收緊,一家中國公司就用 " 降級版 "GPU 做出了比肩 Claude 3.5 Sonnet 的模型。更魔幻的是,它直接開源了。

DeepSeek-V3 上周發(fā)布,在代碼和數(shù)學(xué)基準(zhǔn)測試中壓過 GPT-4o 和 Claude 3.5 Sonnet 一頭。訓(xùn)練只用了 2048 塊 H800 ——這是英偉達(dá)特供中國的 " 閹割版 " 芯片,帶寬被砍到 H100 的一半。團(tuán)隊(duì)總成本 557 萬美元,不到 Meta 訓(xùn)練 Llama 3 的十分之一。

創(chuàng)始人梁文鋒的回應(yīng)很直接:「我們的目標(biāo)不是快速商業(yè)化,而是推動技術(shù)前沿?!惯@話放在硅谷可能像 PR 話術(shù),但 DeepSeek 確實(shí)沒收錢。API 定價是 Claude 的 1/50,模型權(quán)重直接掛 Hugging Face。

業(yè)內(nèi)現(xiàn)在分兩派。一派算經(jīng)濟(jì)賬:用受限硬件做出頂級性能,說明算力效率還有巨大空間。另一派算政治賬:禁令反而逼出了更省錢的訓(xùn)練方法,這劇本華盛頓沒料到。

有個細(xì)節(jié)挺有意思。DeepSeek 團(tuán)隊(duì)去年還在發(fā)論文研究 " 如何用更少的卡訓(xùn)更大的模型 ",今年就把論文變成了產(chǎn)品。H800 的庫存據(jù)說快清完了,下一版用什么練,成了新問題。

相關(guān)閱讀

最新評論

沒有更多評論了

覺得文章不錯,微信掃描分享好友

掃碼分享

熱門推薦

查看更多內(nèi)容

企業(yè)資訊

查看更多內(nèi)容