电竞比分网-中国电竞赛事及体育赛事平台

<i id="dymad"></i>

鈦媒體 05-29

Anthropic 發(fā)布 Claude Opus 4.8，重點是：“我不會騙你”

文 | 強調(diào) Next

今天凌晨，Anthropic 發(fā)布了 Claude Opus 4.8。距上一版 Opus4.7 只過了 41 天。

按照慣例，發(fā)布會上少不了一串亮眼的跑分：SWE-bench Pro 從 64.3% 升到 69.2%，數(shù)學(xué)測試 USAMO 拿了 96.7%，綜合推理評分比 GPT-5.5 領(lǐng)先 121 個 Elo 分……但 Anthropic 選擇把發(fā)布的重心放在一個聽起來很 " 軟 " 的詞上：誠實。

1 · 跑分之外，更重要的是不撒謊

過去兩年，AI 公司在發(fā)布模型時的敘事框架幾乎千篇一律：更快、更強、更便宜。Anthropic 這次的核心論點是：Opus4.8 比上一代 " 更不會騙你 "。

具體來說，他們的評測顯示，新模型在發(fā)現(xiàn)自己寫的代碼存在缺陷時，主動報告的概率是 Opus4.7 的四倍。用 Anthropic 自己的話說，舊模型有時會 " 跳到結(jié)論上 "，信心滿滿地匯報進展，哪怕證據(jù)并不支撐。測試過新模型的早期用戶反映，Opus4.8 更愿意在不確定的地方說 " 我不確定 "，而不是給出一個聽起來合理、但實際站不住腳的答案。

這個改變看起來不起眼，實則是很多企業(yè)在真正落地 AI 時碰到的核心痛點。一個會寫代碼但不會發(fā)現(xiàn)自己代碼有問題的模型，放進生產(chǎn)環(huán)境是危險的。一個做了分析但不標注自己在哪里打了折扣的模型，給高管看的報告就需要花大量時間人工復(fù)核?？尚刨嚩?，在某些場景下比能力更值錢。

2 · AI 開始接管 " 整個任務(wù) "

配合新模型同步上線的，還有兩個功能，分量都不輕。

其中一個叫 Dynamic Workflows，目前以研究預(yù)覽版的形式放在 ClaudeCode 里。它的邏輯是：把一個大任務(wù)交給模型，它會先做規(guī)劃，然后同時拉起數(shù)百個并行的子智能體分頭干活，最后匯總驗證結(jié)果。Anthropic 給出的示例場景是對數(shù)十萬行代碼進行整庫遷移。從提需求到代碼合并，全程由 AI 主導(dǎo)推進。

這意味著 AI 在工程場景里的角色，正在從 " 寫代碼的助手 " 向 " 執(zhí)行工程任務(wù)的主體 " 遷移。對技術(shù)團隊來說，遺留系統(tǒng)改造、跨模塊重構(gòu)這類歷來耗時又高風(fēng)險的活，第一次有了被認真 " 外包 " 給 AI 的可能性。

另一個是努力程度控制，面向所有 claude.ai 用戶開放。用戶可以自己調(diào)節(jié)模型每次回復(fù)投入多少 " 思考量 "，需要深度分析就調(diào)高，日?？焖俳换ゾ驼{(diào)低，相應(yīng)地也會消耗不同額度的使用配額。把成本與質(zhì)量的權(quán)衡交給用戶自己決定，這個思路倒是挺務(wù)實的。

3 · 價格沒變

價格方面沒有變化：輸入 $5、輸出 $25，每百萬 token，和 Opus4.7 一樣。變的是 FastMode，同樣的旗艦?zāi)Ｐ唾|(zhì)量，2.5 倍速，價格比前代便宜了三倍，降到輸入 $10、輸出 $50。對于需要大批量調(diào)用的企業(yè)來說，這個變化比模型本身的能力提升更直接地影響部署決策。

4 · 更大的伏筆

發(fā)布稿里還藏著一條值得關(guān)注的信息：Mythos。

這是他們更高級別的模型，目前只在少數(shù)企業(yè)中小范圍測試。Anthropic 說，Mythos 級別的模型將在 " 未來數(shù)周內(nèi) " 向所有客戶開放，正在做的是完善安全防護機制。上個月 Mythos 的有限預(yù)覽因為暴露出一些網(wǎng)絡(luò)安全方面的隱患而被緊急踩了剎車，這次措辭謹慎，沒有給出具體時間表。

與此同時，Anthropic 今天還公布了 650 億美元的 H 輪融資，估值來到 9650 億美元，在賬面上超過了 OpenAI 的 8520 億美元。兩家公司誰先上市、誰先過萬億，正在成為硅谷最受關(guān)注的懸念之一。

回到模型本身。Opus 4.8 是一次定位清晰的迭代。沒有革命性的代際更新，只是在現(xiàn)有基礎(chǔ)上把可靠性、誠實性和長任務(wù)執(zhí)行能力推進了一步。Anthropic 自己也承認這是 " 適度但實質(zhì)性的改進 "。

留給我們的問題是，當(dāng) AI 開始學(xué)會說 " 我不確定 "，人與 AI 之間的協(xié)作方式，需要怎么跟著調(diào)整？

查看原文

宙世代

ZAKER旗下Web3.0元宇宙平臺

一起剪

ZAKER旗下免費視頻剪輯工具

相關(guān)標簽

ai 網(wǎng)絡(luò)安全

企業(yè)資訊

查看更多內(nèi)容

Blockchain News

电竞比分网-中国电竞赛事及体育赛事平台

宙世代元宇宙

元宇宙黨建解決方案

元宇宙文旅解決方案

元宇宙展廳解決方案

元宇宙行業(yè)峰會解決方案

元宇宙營銷解決方案

元宇宙會展解決方案

元宇宙演藝節(jié)目解決方案

元宇宙博物館解決方案

元宇宙圖書館解決方案

元宇宙校園解決方案

元宇宙企業(yè)展廳解決方案

元宇宙藝術(shù)展解決方案

元宇宙電商解決方案

融媒體解決方案

ZAKER智慧云

媒體解決方案

黨建解決方案

公檢法解決方案

智慧交通解決方案

高校解決方案

AI視頻

AI視頻剪輯

視頻定制服務(wù)

AI智能客服

我的訂閱

Anthropic 發(fā)布 Claude Opus 4.8，重點是：“我不會騙你”

宙世代

一起剪

相關(guān)閱讀

NV一代神卡的魅力！黃仁勛：我最喜歡顯卡是1080 Ti 它改變了一切

省了一筆！iPhone 18 Pro Max實測厚度8.75mm：和上代一致 老款手機殼直接通用

AI查重難倒畢業(yè)生！有人花780元降A(chǔ)I率：論文改到不像人寫的

全球30%的人都在用！谷歌Gemini搜索AI概覽用戶達25億 月活超9億

為一個看不見的東西，程序員因吵了半個世紀。

又一批蘋果老設(shè)備要被淘汰！iPhone 11、iPad 8等無緣升級iOS/iPadOS 27

邁入65mm大畫幅時代！索尼宣布研發(fā)RIALTO 65傳感器 面積為全畫幅2.2倍

華夏基金DeepTalk解碼“韜（τ）定律”，深談芯片設(shè)計與科技范式革新

隨著量子計算熱潮升溫 霍尼韋爾旗下Quantinuum在美國首次公開募股中籌集16.8億美元

數(shù)據(jù)中心“基建潮”現(xiàn)狀調(diào)研：布局重構(gòu)，成本壓降，算電協(xié)同制約瓶頸待破解

AI需求引爆“芯片通脹” 摩根士丹利：沖擊正蔓延至整個經(jīng)濟

藍色起源火箭爆炸或影響美國月球任務(wù)進度，貝索斯發(fā)文“這值得”

芯片巨頭達成新共識 AI Agent時代或全面到來

Meta面向全球上線商用AI智能體服務(wù)

張小龍猛拉了馬化騰一把

最新評論

鈦媒體

熱門推薦

企業(yè)資訊

Anthropic 發(fā)布 Claude Opus 4.8，重點是：“我不會騙你”

省了一筆！iPhone 18 Pro Max實測厚度8.75mm：和上代一致老款手機殼直接通用

全球30%的人都在用！谷歌Gemini搜索AI概覽用戶達25億月活超9億

為一個看不見的東西，程序員因吵了半個世紀。

又一批蘋果老設(shè)備要被淘汰！iPhone 11、iPad 8等無緣升級iOS/iPadOS 27

邁入65mm大畫幅時代！索尼宣布研發(fā)RIALTO 65傳感器面積為全畫幅2.2倍

華夏基金DeepTalk解碼“韜（τ）定律”，深談芯片設(shè)計與科技范式革新

隨著量子計算熱潮升溫霍尼韋爾旗下Quantinuum在美國首次公開募股中籌集16.8億美元

數(shù)據(jù)中心“基建潮”現(xiàn)狀調(diào)研：布局重構(gòu)，成本壓降，算電協(xié)同制約瓶頸待破解

藍色起源火箭爆炸或影響美國月球任務(wù)進度，貝索斯發(fā)文“這值得”