文 | 強調(diào) Next
今天凌晨,Anthropic 發(fā)布了 Claude Opus 4.8。距上一版 Opus4.7 只過了 41 天。
按照慣例,發(fā)布會上少不了一串亮眼的跑分:SWE-bench Pro 從 64.3% 升到 69.2%,數(shù)學(xué)測試 USAMO 拿了 96.7%,綜合推理評分比 GPT-5.5 領(lǐng)先 121 個 Elo 分……但 Anthropic 選擇把發(fā)布的重心放在一個聽起來很 " 軟 " 的詞上:誠實。

過去兩年,AI 公司在發(fā)布模型時的敘事框架幾乎千篇一律:更快、更強、更便宜。Anthropic 這次的核心論點是:Opus4.8 比上一代 " 更不會騙你 "。
具體來說,他們的評測顯示,新模型在發(fā)現(xiàn)自己寫的代碼存在缺陷時,主動報告的概率是 Opus4.7 的四倍。用 Anthropic 自己的話說,舊模型有時會 " 跳到結(jié)論上 ",信心滿滿地匯報進展,哪怕證據(jù)并不支撐。測試過新模型的早期用戶反映,Opus4.8 更愿意在不確定的地方說 " 我不確定 ",而不是給出一個聽起來合理、但實際站不住腳的答案。

2 · AI 開始接管 " 整個任務(wù) "
配合新模型同步上線的,還有兩個功能,分量都不輕。
其中一個叫 Dynamic Workflows,目前以研究預(yù)覽版的形式放在 ClaudeCode 里。它的邏輯是:把一個大任務(wù)交給模型,它會先做規(guī)劃,然后同時拉起數(shù)百個并行的子智能體分頭干活,最后匯總驗證結(jié)果。Anthropic 給出的示例場景是對數(shù)十萬行代碼進行整庫遷移。從提需求到代碼合并,全程由 AI 主導(dǎo)推進。

另一個是努力程度控制,面向所有 claude.ai 用戶開放。用戶可以自己調(diào)節(jié)模型每次回復(fù)投入多少 " 思考量 ",需要深度分析就調(diào)高,日??焖俳换ゾ驼{(diào)低,相應(yīng)地也會消耗不同額度的使用配額。把成本與質(zhì)量的權(quán)衡交給用戶自己決定,這個思路倒是挺務(wù)實的。
3 · 價格沒變
價格方面沒有變化:輸入 $5、輸出 $25,每百萬 token,和 Opus4.7 一樣。變的是 FastMode,同樣的旗艦?zāi)P唾|(zhì)量,2.5 倍速,價格比前代便宜了三倍,降到輸入 $10、輸出 $50。對于需要大批量調(diào)用的企業(yè)來說,這個變化比模型本身的能力提升更直接地影響部署決策。
4 · 更大的伏筆
發(fā)布稿里還藏著一條值得關(guān)注的信息:Mythos。
這是他們更高級別的模型,目前只在少數(shù)企業(yè)中小范圍測試。Anthropic 說,Mythos 級別的模型將在 " 未來數(shù)周內(nèi) " 向所有客戶開放,正在做的是完善安全防護機制。上個月 Mythos 的有限預(yù)覽因為暴露出一些網(wǎng)絡(luò)安全方面的隱患而被緊急踩了剎車,這次措辭謹慎,沒有給出具體時間表。
與此同時,Anthropic 今天還公布了 650 億美元的 H 輪融資,估值來到 9650 億美元,在賬面上超過了 OpenAI 的 8520 億美元。兩家公司誰先上市、誰先過萬億,正在成為硅谷最受關(guān)注的懸念之一。
回到模型本身。Opus 4.8 是一次定位清晰的迭代。沒有革命性的代際更新,只是在現(xiàn)有基礎(chǔ)上把可靠性、誠實性和長任務(wù)執(zhí)行能力推進了一步。Anthropic 自己也承認這是 " 適度但實質(zhì)性的改進 "。
留給我們的問題是,當(dāng) AI 開始學(xué)會說 " 我不確定 ",人與 AI 之間的協(xié)作方式,需要怎么跟著調(diào)整?