电竞比分网-中国电竞赛事及体育赛事平台

關(guān)于ZAKER 合作
鈦媒體 13分鐘前

阿里字節(jié)“圍獵”智譜、MiniMax:Token 到底該由誰(shuí)來(lái)定價(jià)?

文 | 新立場(chǎng) Pro

前不久,Anthropic 停止允許訂閱用戶通過(guò) OpenClaw 等第三方工具接入 Claude API。理由并不復(fù)雜,一個(gè) OpenClaw 代理運(yùn)行一天,消耗的算力成本在 1000 美元到 5000 美元之間,而用戶每月只付了 200 美元。

Claude Code 負(fù)責(zé)人 Boris Cherny 在 聲明里說(shuō),訂閱服務(wù) " 并非為這些第三方工具的使用模式而設(shè)計(jì) "。這句話沒(méi)有錯(cuò),但它遮住了一個(gè)更基礎(chǔ)的問(wèn)題:沒(méi)有任何訂閱服務(wù)能被設(shè)計(jì)成覆蓋這種使用模式。Agent 場(chǎng)景下的 Token 消耗量沒(méi)有上限,也沒(méi)有歷史數(shù)據(jù)可以參考,任何固定月費(fèi)都是在對(duì)一個(gè)無(wú)法建模的變量做猜測(cè)。

3 月底,中國(guó)國(guó)家數(shù)據(jù)局公布了另一組數(shù)字:中國(guó)日均 Token 調(diào)用量突破 140 萬(wàn)億,兩年增長(zhǎng)超千倍。同期,字節(jié)的 Token 調(diào)用量躋身全球三甲,與 OpenAI、谷歌并列。無(wú)問(wèn)芯穹 CEO 夏立雪在一場(chǎng)行業(yè)論壇上描述這個(gè)增速時(shí)說(shuō),上一次看到類似的曲線,是 3G 時(shí)代手機(jī)流量從每月 100MB 開(kāi)始普及的時(shí)候。當(dāng)時(shí)沒(méi)有人預(yù)料到,流量放開(kāi)之后會(huì)跑出抖音、微信和外賣(mài)。

兩件事放在一起,描述的是同一個(gè)現(xiàn)實(shí):Token 的消耗正在以罕見(jiàn)的速度增長(zhǎng),但支撐整個(gè)行業(yè)運(yùn)轉(zhuǎn)的定價(jià)邏輯,依然建立在兩年前聊天機(jī)器人時(shí)代的假設(shè)之上,即用戶的使用量是可以被歷史數(shù)據(jù)預(yù)測(cè)的,輕度用戶會(huì)自然地覆蓋重度用戶,整體成本可以被攤平。

智能體們打破了這個(gè)假設(shè)的每一個(gè)前提,市場(chǎng)變化的速度,超過(guò)了任何定價(jià)模型的響應(yīng)能力??v觀過(guò)去兩年 Token 市場(chǎng)的演化,每一個(gè)優(yōu)勢(shì)窗口的終結(jié),都由同一個(gè)邏輯驅(qū)動(dòng),即當(dāng)競(jìng)爭(zhēng)者能夠復(fù)制優(yōu)勢(shì)——規(guī)??梢员蛔汾s,算法可以被開(kāi)源,場(chǎng)景可以被大平臺(tái)的分發(fā)能力碾壓。

目前唯一難以被快速?gòu)?fù)制的,是將 Token 效率內(nèi)化為產(chǎn)品架構(gòu)、定價(jià)邏輯和工程文化的能力。而在這件事上真正做到體系化的,只有 Anthropic。

失去意義的平均價(jià)格

Token 之所以不同于電力、鋼鐵等傳統(tǒng)生產(chǎn)要素,在于它具備獨(dú)一無(wú)二的 " 可編程性 "。沒(méi)有任何一種傳統(tǒng)生產(chǎn)要素,能僅憑 " 指令不同 " 就將自身價(jià)值改變十萬(wàn)倍。這種可編程性,是 Token 作為新型生產(chǎn)要素的本質(zhì)特征,也是理解當(dāng)前 AI 經(jīng)濟(jì)混亂的前提。

理解這一點(diǎn),需要先建立量級(jí)感。36 氪報(bào)道,OpenAI API 日均處理約 21.6 萬(wàn)億 Token,谷歌 Gemini 日均約 43 萬(wàn)億,而中國(guó)的 140 萬(wàn)億約為前兩者之和的兩倍有余。摩根大通預(yù)測(cè),僅中國(guó)的 AI 推理 Token 消耗,就將在五年內(nèi)再增 370 倍。這個(gè)量級(jí)本身說(shuō)明了,Token 已經(jīng)是一個(gè)經(jīng)濟(jì)規(guī)模指標(biāo)。

此外,Token 的大量消耗使用發(fā)生在公有云的統(tǒng)計(jì)口徑之外。金融機(jī)構(gòu)在本地服務(wù)器上跑票據(jù)識(shí)別,車端智能座艙的對(duì)話在車內(nèi)閉環(huán)完成,工業(yè)機(jī)器人的視覺(jué)模型以毫秒級(jí)響應(yīng)運(yùn)行在邊緣設(shè)備上,這些都不會(huì)出現(xiàn)在任何公開(kāi)數(shù)據(jù)里。一位從業(yè)者估算,非公有云 API 的調(diào)用量至少是公有云的五到十倍。

規(guī)模之外,Token 的價(jià)值結(jié)構(gòu)與生產(chǎn)成本更應(yīng)該關(guān)注。黃仁勛今年 3 月在一篇署名文章里把 AI 產(chǎn)業(yè)拆成五層:能源、芯片、基礎(chǔ)設(shè)施、模型、應(yīng)用,并將 Token 定義為現(xiàn)代 AI 的基本單位,也是 AI 的語(yǔ)言和貨幣。這個(gè)定義的精妙之處在于,它同時(shí)指向了 Token 的兩種屬性:作為語(yǔ)言,它是計(jì)算過(guò)程的原子;作為貨幣,它是價(jià)值流通的媒介。

但生產(chǎn)一個(gè) Token 的代價(jià),遠(yuǎn)比這個(gè)定義看起來(lái)復(fù)雜。據(jù) Sam Altman 和 Epoch AI 披露,ChatGPT 發(fā)送一條文本提示大約消耗 0.3 瓦時(shí)。谷歌搜索的耗電量(0.03 瓦時(shí))僅為其一小部分。谷歌 2025 年也曾披露,Gemini 發(fā)送一條典型的文本提示大約消耗 0.24 瓦時(shí),并產(chǎn)生約 0.03 克二氧化碳。

隨著模型復(fù)雜度的增加,推理成本也相應(yīng)上升。GPT-5 級(jí)別的系統(tǒng)每次查詢可能消耗約 18 瓦時(shí),而進(jìn)行擴(kuò)展推理時(shí)則可能消耗高達(dá) 40 瓦時(shí)。 差距來(lái)自兩個(gè)地方,一是模型大小,參數(shù)越多,生成每一個(gè) Token 所需的計(jì)算量就越大;二是推理模式,新一代模型在輸出每一個(gè)可見(jiàn) Token 之前,會(huì)在內(nèi)部進(jìn)行大量隱式推演,用戶看到一個(gè)字,模型內(nèi)部可能已經(jīng) " 想 " 了上百步。單個(gè)可見(jiàn) Token 的真實(shí)成本,被這個(gè)思考過(guò)程成倍放大了。

這是 Token 與電力、石油這類生產(chǎn)要素的根本區(qū)別,Token 的價(jià)值并不由生產(chǎn)成本決定,而完全由使用場(chǎng)景決定。同樣一百萬(wàn)個(gè) Token,用于閑聊,市場(chǎng)價(jià)約 0.01 美元;用于代碼生成,可以值 200 美元;用于法律文件審查,價(jià)值可能超過(guò) 1000 美元,價(jià)值差距達(dá)十萬(wàn)倍。耶魯大學(xué)研究者將這一特征描述為 Token 的 " 可合同化 " 屬性:數(shù)量可以精確計(jì)量,但價(jià)值取決于它被編程去做什么。

當(dāng)整個(gè)行業(yè)用同一個(gè)價(jià)格邏輯去覆蓋價(jià)值差距十萬(wàn)倍的使用場(chǎng)景時(shí),系統(tǒng)性的定價(jià)混亂就不是偶然,而是必然。

因此,所謂平均 Token 價(jià)格,就像用平均客單價(jià)來(lái)描述一個(gè)既有路邊攤又有米其林餐廳的商圈,即便數(shù)字正確,但毫無(wú)意義。Collis 和 Brynjolfsson 曾在 2025 年的估算顯示,生成式 AI 在 2024 年僅為美國(guó)消費(fèi)者創(chuàng)造的消費(fèi)者剩余就高達(dá)約 970 億美元,用戶實(shí)際獲得的價(jià)值,遠(yuǎn)超過(guò)他們支付的金額。這個(gè)數(shù)字的絕大部分,集中在高價(jià)值應(yīng)用場(chǎng)景。

Token 經(jīng)濟(jì)的窗口期正在合攏

在 Token 經(jīng)濟(jì)中,競(jìng)爭(zhēng)優(yōu)勢(shì)是跟隨技術(shù)躍遷、產(chǎn)品形態(tài)轉(zhuǎn)變與市場(chǎng)結(jié)構(gòu)共同決定的時(shí)間窗口。每一個(gè)窗口的受益者,都在無(wú)意識(shí)中為下一個(gè)顛覆者鋪路,而能在多個(gè)窗口連續(xù)卡位的玩家,才是真正的贏家。

2025 年初,算法是 Token 第一個(gè)窗口。DeepSeek V3 發(fā)布后,混合專家架構(gòu)(MoE)將同等能力的推理成本壓低了一個(gè)數(shù)量級(jí):模型內(nèi)部包含多個(gè)專家子模塊,每次推理只激活其中一小部分,在保留完整模型能力的同時(shí),將單次推理的實(shí)際計(jì)算量大幅壓縮,將推理成本下降了一個(gè)數(shù)量級(jí)。

但算法窗口的悖論在于,打開(kāi)它的那把鑰匙,同時(shí)也是關(guān)上它的鎖。DeepSeek 選擇了開(kāi)源,將核心模型權(quán)重和架構(gòu)設(shè)計(jì)公開(kāi),吸引全球開(kāi)發(fā)者接入生態(tài)。這個(gè)選擇在短期內(nèi)快速擴(kuò)大了市場(chǎng)份額,在中長(zhǎng)期則主動(dòng)壓縮了算法領(lǐng)先的窗口期。當(dāng)架構(gòu)創(chuàng)新被開(kāi)源,整個(gè)行業(yè)的 Token 成本基準(zhǔn)被同步重置,算法優(yōu)勢(shì)也就從專有壁壘變成了公共基礎(chǔ)設(shè)施。

同年底,規(guī)模成為第二個(gè)窗口?;鹕揭鎸⒒ヂ?lián)網(wǎng)流量戰(zhàn)的打法平移了過(guò)來(lái),用大規(guī)模的機(jī)場(chǎng)廣告宣告自己在 Token 市場(chǎng)的存在。譚待在 4 月 2 日的最新的業(yè)務(wù)進(jìn)展分享中提到,兩年之內(nèi),火山引擎的 Token 調(diào)用量增長(zhǎng)了 1000 倍,萬(wàn)億級(jí) Token 消耗企業(yè)增至 140 家。

不過(guò)規(guī)模優(yōu)勢(shì)存在一定時(shí)效性,譚待在接受《第一財(cái)經(jīng)》的采訪時(shí)也談到,在 Token 大規(guī)模調(diào)用量中,包含了大量無(wú)效算力。譚待以解數(shù)學(xué)題為例:枚舉法計(jì)算量大,模型能力不足就會(huì)采用類似方式,造成無(wú)謂消耗;更優(yōu)秀的模型能找到簡(jiǎn)潔解法,優(yōu)化空間很大。規(guī)模數(shù)字的背面,是大量本可以避免的算力浪費(fèi)。當(dāng)競(jìng)爭(zhēng)從 " 消耗了多少 " 轉(zhuǎn)向 " 每個(gè) Token 創(chuàng)造了多少價(jià)值 " 時(shí),規(guī)模窗口就開(kāi)始關(guān)閉。

場(chǎng)景,是當(dāng)前 Token 競(jìng)爭(zhēng)最激烈的地方。智譜、MiniMax、月之暗面沒(méi)有字節(jié)的流量規(guī)模,也沒(méi)有阿里、騰訊的云計(jì)算生態(tài),但它們?cè)?To B 高價(jià)值場(chǎng)景里找到了立足點(diǎn)。智譜與 MiniMax 的市值一度超過(guò)快手等傳統(tǒng)互聯(lián)網(wǎng)公司,充分說(shuō)明場(chǎng)景窗口在特定階段能創(chuàng)造的估值溢價(jià)有多大。

但這個(gè)窗口如今也正在收窄。在一場(chǎng)行業(yè)論壇上,楊植麟問(wèn)智譜 CEO 張鵬:你們?yōu)槭裁礉q價(jià)?張鵬的回答是,完成一個(gè) Agent 任務(wù)消耗的 Token 量,是回答簡(jiǎn)單問(wèn)題的十倍甚至百倍;長(zhǎng)期依賴低價(jià)競(jìng)爭(zhēng),對(duì)整個(gè)行業(yè)都沒(méi)有好處。

這場(chǎng)對(duì)話背后,一場(chǎng)更大規(guī)模的場(chǎng)景爭(zhēng)奪戰(zhàn)正在展開(kāi)。字節(jié)通過(guò)飛書(shū)和扣子(Coze)平臺(tái),將大模型能力直接嵌入企業(yè)的協(xié)同工作流與海量流量節(jié)點(diǎn);騰訊依托微信生態(tài)與企業(yè)微信,掌握著企業(yè)觸達(dá)并服務(wù)客戶的最短社交鏈路;阿里則將旗下 AI 業(yè)務(wù)統(tǒng)籌為 ATH 事業(yè)群,Token 消耗被直接打包成企業(yè)數(shù)字化底座的一部分。

這三家公司擁有在企業(yè)端已經(jīng)建立多年的信任關(guān)系和系統(tǒng)整合能力。獨(dú)立廠商依賴模型質(zhì)量差異維系的場(chǎng)景優(yōu)勢(shì),正在被這種結(jié)構(gòu)性優(yōu)勢(shì)快速壓縮。

Token 效率是當(dāng)前正在形成的第四個(gè)窗口,也是最難被快速?gòu)?fù)制的一個(gè)。這一窗口的競(jìng)爭(zhēng),目前集中在 Coding 場(chǎng)景。Anthropic 封禁第三方工具后,大量習(xí)慣于低成本接入 Claude 的用戶開(kāi)始尋找替代方案。OpenAI 迅速將自己定位成更易上手的選擇。但 Anthropic 押注的是訓(xùn)練和運(yùn)行模型的效率,OpenAI 的心態(tài)是奧特曼總能籌集到更多資金支持算力規(guī)模。

用資本堆算力換市場(chǎng)份額,是一種可以奏效但難以持續(xù)的策略。截至今年 3 月底,OpenAI 的 API 每分鐘處理量已突破 150 億 Token,而 2025 年 10 月這個(gè)數(shù)字還是 60 億。但算力供給的增速遠(yuǎn)遠(yuǎn)跟不上,GPU 租賃價(jià)格在兩個(gè)月內(nèi)漲了 48%,英偉達(dá)最新一代 Blackwell 芯片的每小時(shí)租用費(fèi)用已升至 4.08 美元,數(shù)據(jù)中心的建設(shè)周期以年計(jì)算。OpenAI 甚至部分暫停了 Sora 視頻生成工具,騰出計(jì)算資源給編碼和企業(yè)級(jí)產(chǎn)品。

Anthropic 看到的是 Harness Engineering 這條路,通過(guò)重新設(shè)計(jì) Agent 的調(diào)度架構(gòu),從系統(tǒng)層面減少無(wú)效 Token 消耗,讓更少的算力做更多的事。這是在算力稀缺的現(xiàn)實(shí)約束下,重新定義效率本身的含義。

而在中國(guó)市場(chǎng),阿里云也開(kāi)始切入效率窗口,其將 Token 的定價(jià)、調(diào)用追蹤與企業(yè)賬單管理整合進(jìn)統(tǒng)一的云計(jì)算基礎(chǔ)設(shè)施。吳泳銘提到,很多企業(yè)已經(jīng)不把 Token 消耗當(dāng) IT 預(yù)算,而是當(dāng)作生產(chǎn)資料和研發(fā)成本來(lái)核算。這是一種更慢的建法,但也更難被顛覆。

在算力供給觸及物理極限、需求仍在加速增長(zhǎng)的現(xiàn)實(shí)下,真正稀缺的不是便宜的 Token,而是在有限算力約束下能產(chǎn)出最高價(jià)值密度的 Token。

封禁 OpenClaw,只是結(jié)果

在算力稀缺、定價(jià)體系失效、Agent 消耗失控的多重壓力下,Anthropic 是迄今為止唯一一家不只是調(diào)整了定價(jià)策略,還從工程架構(gòu)層面重新回答了 "Agent 應(yīng)該怎么運(yùn)行 " 這個(gè)問(wèn)題的公司。封禁是被動(dòng)應(yīng)對(duì),Managed Agents 才是主動(dòng)給出的答案。

Harness 是 Agent 框架的調(diào)度層,負(fù)責(zé)決定何時(shí)調(diào)用模型、如何管理上下文、出錯(cuò)時(shí)怎么處理。在 Chatbot 時(shí)代,這套邏輯相對(duì)簡(jiǎn)單。進(jìn)入 Agent 時(shí)代后,Harness 開(kāi)始承載更復(fù)雜的任務(wù),也開(kāi)始產(chǎn)生大量本不必要的 Token 消耗。

Anthropic 工程博客提供了一個(gè)具體案例,Claude Sonnet 4.5,存在一種被工程師稱為 " 上下文焦慮 " 的行為當(dāng)模型感知到上下文窗口接近上限時(shí),會(huì)提前終止任務(wù)。Harness 為此添加了上下文重置機(jī)制,在適當(dāng)時(shí)機(jī)強(qiáng)制清除并重載上下文,以確保任務(wù)繼續(xù)。這在當(dāng)時(shí)是合理的工程補(bǔ)丁。

問(wèn)題發(fā)生在 Claude Opus 4.5 上線之后。新模型已經(jīng)不再出現(xiàn) " 上下文焦慮 ",但舊的重置機(jī)制仍在每次執(zhí)行時(shí)觸發(fā),消耗著不必要的 Token,增加著不必要的延遲。這些機(jī)制從解決問(wèn)題的補(bǔ)丁,變成了制造成本的負(fù)擔(dān)。Anthropic 工程師將其稱為 " 死重 "。

這是 Harness 框架的結(jié)構(gòu)性缺陷:每一套 Harness 都是對(duì)某一時(shí)刻模型能力的快照。模型在持續(xù)進(jìn)化,但快照被當(dāng)作永久規(guī)則執(zhí)行。模型迭代越快,這種錯(cuò)位就越嚴(yán)重。

在商業(yè)場(chǎng)景里,這個(gè)問(wèn)題被進(jìn)一步放大。OpenClaw 在處理單次用戶查詢時(shí),實(shí)際產(chǎn)生的 API 請(qǐng)求數(shù)量是 Claude Code 官方框架的數(shù)倍,每次請(qǐng)求攜帶超過(guò) 10 萬(wàn) Token 的上下文窗口。換算成 API 費(fèi)率,單次查詢的真實(shí)成本是訂閱價(jià)格的幾十倍。無(wú)論個(gè)人的主觀使用頻次高低,通過(guò)這類框架發(fā)起的請(qǐng)求,天然具有重度用戶的成本畫(huà)像。平臺(tái)對(duì)重度用戶的補(bǔ)貼,由此從概率問(wèn)題變成了確定性問(wèn)題。

Anthropic 的應(yīng)對(duì)是 Managed Agents,核心思路是為 Agent 領(lǐng)域建立接口穩(wěn)定,實(shí)現(xiàn)自由替換的抽象層。" 上下文焦慮 " 消失了,對(duì)應(yīng)的重置機(jī)制自然退場(chǎng),不會(huì)留下 " 死重 "。內(nèi)部測(cè)試數(shù)據(jù)顯示,在結(jié)構(gòu)化文件生成任務(wù)中,Managed Agents 將任務(wù)成功率提升了最高 10 個(gè)百分點(diǎn),提升最顯著的是最難的任務(wù)。

同期出現(xiàn)的 Hermes Agent,從另一個(gè)方向印證了同一個(gè)判斷。這個(gè)強(qiáng)調(diào) " 閉環(huán)學(xué)習(xí)循環(huán) " 的框架,在更新已積累的操作流程文件時(shí),選擇以 patch 方式寫(xiě)入,只傳入需要修改的具體字段,而非重寫(xiě)整個(gè)文件。patch 只觸碰問(wèn)題所在,Token 消耗也更少。這是 Token 效率意識(shí)在框架設(shè)計(jì)層面最具體的體現(xiàn)之一。

Token 經(jīng)濟(jì)的新競(jìng)爭(zhēng),已經(jīng)細(xì)微到 " 誰(shuí)能讓每一個(gè) Token 產(chǎn)出更高的價(jià)值 "。羅福莉在自己那篇瀏覽量超過(guò) 73w+ 的帖子最后寫(xiě)道,真正的出路不是更便宜的 Token,而是模型和 Agent 的協(xié)同進(jìn)化。

這句話說(shuō)的不只是技術(shù)路線,也包括整個(gè)行業(yè)定價(jià)邏輯應(yīng)該完成的轉(zhuǎn)變:從按量計(jì)費(fèi),到按價(jià)值定價(jià);從管理成本,到創(chuàng)造結(jié)果,這是整個(gè)行業(yè)需要完成的轉(zhuǎn)變。

Anthropic 在 Harness 架構(gòu)上的探索,給出了目前最清晰的一個(gè)方向。但中間這段路,還很長(zhǎng)。

相關(guān)標(biāo)簽

相關(guān)閱讀

最新評(píng)論

沒(méi)有更多評(píng)論了

覺(jué)得文章不錯(cuò),微信掃描分享好友

掃碼分享

熱門(mén)推薦

查看更多內(nèi)容

企業(yè)資訊

查看更多內(nèi)容