电竞比分网-中国电竞赛事及体育赛事平台

關(guān)于ZAKER Skills 合作
鈦媒體 05-29

Anthropic 發(fā)布 Claude Opus 4.8,重點是:“我不會騙你”

文 | 強調(diào) Next

今天凌晨,Anthropic 發(fā)布了 Claude Opus 4.8。距上一版 Opus4.7 只過了 41 天。

按照慣例,發(fā)布會上少不了一串亮眼的跑分:SWE-bench Pro 從 64.3% 升到 69.2%,數(shù)學(xué)測試 USAMO 拿了 96.7%,綜合推理評分比 GPT-5.5 領(lǐng)先 121 個 Elo 分……但 Anthropic 選擇把發(fā)布的重心放在一個聽起來很 " 軟 " 的詞上:誠實。

1 · 跑分之外,更重要的是不撒謊

過去兩年,AI 公司在發(fā)布模型時的敘事框架幾乎千篇一律:更快、更強、更便宜。Anthropic 這次的核心論點是:Opus4.8 比上一代 " 更不會騙你 "。

具體來說,他們的評測顯示,新模型在發(fā)現(xiàn)自己寫的代碼存在缺陷時,主動報告的概率是 Opus4.7 的四倍。用 Anthropic 自己的話說,舊模型有時會 " 跳到結(jié)論上 ",信心滿滿地匯報進展,哪怕證據(jù)并不支撐。測試過新模型的早期用戶反映,Opus4.8 更愿意在不確定的地方說 " 我不確定 ",而不是給出一個聽起來合理、但實際站不住腳的答案。

這個改變看起來不起眼,實則是很多企業(yè)在真正落地 AI 時碰到的核心痛點。一個會寫代碼但不會發(fā)現(xiàn)自己代碼有問題的模型,放進生產(chǎn)環(huán)境是危險的。一個做了分析但不標注自己在哪里打了折扣的模型,給高管看的報告就需要花大量時間人工復(fù)核??尚刨嚩?,在某些場景下比能力更值錢。

2 · AI 開始接管 " 整個任務(wù) "

配合新模型同步上線的,還有兩個功能,分量都不輕。

其中一個叫 Dynamic Workflows,目前以研究預(yù)覽版的形式放在 ClaudeCode 里。它的邏輯是:把一個大任務(wù)交給模型,它會先做規(guī)劃,然后同時拉起數(shù)百個并行的子智能體分頭干活,最后匯總驗證結(jié)果。Anthropic 給出的示例場景是對數(shù)十萬行代碼進行整庫遷移。從提需求到代碼合并,全程由 AI 主導(dǎo)推進。

這意味著 AI 在工程場景里的角色,正在從 " 寫代碼的助手 " 向 " 執(zhí)行工程任務(wù)的主體 " 遷移。對技術(shù)團隊來說,遺留系統(tǒng)改造、跨模塊重構(gòu)這類歷來耗時又高風(fēng)險的活,第一次有了被認真 " 外包 " 給 AI 的可能性。

另一個是努力程度控制,面向所有 claude.ai 用戶開放。用戶可以自己調(diào)節(jié)模型每次回復(fù)投入多少 " 思考量 ",需要深度分析就調(diào)高,日??焖俳换ゾ驼{(diào)低,相應(yīng)地也會消耗不同額度的使用配額。把成本與質(zhì)量的權(quán)衡交給用戶自己決定,這個思路倒是挺務(wù)實的。

3 · 價格沒變

價格方面沒有變化:輸入 $5、輸出 $25,每百萬 token,和 Opus4.7 一樣。變的是 FastMode,同樣的旗艦?zāi)P唾|(zhì)量,2.5 倍速,價格比前代便宜了三倍,降到輸入 $10、輸出 $50。對于需要大批量調(diào)用的企業(yè)來說,這個變化比模型本身的能力提升更直接地影響部署決策。

4 · 更大的伏筆

發(fā)布稿里還藏著一條值得關(guān)注的信息:Mythos。

這是他們更高級別的模型,目前只在少數(shù)企業(yè)中小范圍測試。Anthropic 說,Mythos 級別的模型將在 " 未來數(shù)周內(nèi) " 向所有客戶開放,正在做的是完善安全防護機制。上個月 Mythos 的有限預(yù)覽因為暴露出一些網(wǎng)絡(luò)安全方面的隱患而被緊急踩了剎車,這次措辭謹慎,沒有給出具體時間表。

與此同時,Anthropic 今天還公布了 650 億美元的 H 輪融資,估值來到 9650 億美元,在賬面上超過了 OpenAI 的 8520 億美元。兩家公司誰先上市、誰先過萬億,正在成為硅谷最受關(guān)注的懸念之一。

回到模型本身。Opus 4.8 是一次定位清晰的迭代。沒有革命性的代際更新,只是在現(xiàn)有基礎(chǔ)上把可靠性、誠實性和長任務(wù)執(zhí)行能力推進了一步。Anthropic 自己也承認這是 " 適度但實質(zhì)性的改進 "。

留給我們的問題是,當(dāng) AI 開始學(xué)會說 " 我不確定 ",人與 AI 之間的協(xié)作方式,需要怎么跟著調(diào)整?

相關(guān)標簽

相關(guān)閱讀

最新評論

沒有更多評論了

覺得文章不錯,微信掃描分享好友

掃碼分享

熱門推薦

查看更多內(nèi)容

企業(yè)資訊

查看更多內(nèi)容