
作者|樺林舞王
編輯|靖宇
一家 AI 公司,到底做什么會(huì)讓開發(fā)者氣到在 GitHub 上,公開聲討一個(gè) AI 模型「退化到不能用」?
過(guò)去幾周,Claude Opus 4.6「瘋狂降智」的討論充斥網(wǎng)絡(luò)。
一位 AMD 的資深總監(jiān)在 GitHub 上發(fā)了一篇廣泛流傳的帖子,直接寫道「Claude 已退化到無(wú)法信任執(zhí)行復(fù)雜工程的地步」。這篇帖子在開發(fā)者社區(qū)炸開了鍋,無(wú)數(shù)人跑來(lái)補(bǔ)刀,說(shuō)自己也有類似體驗(yàn)。
就在輿論發(fā)酵到最熱的時(shí)候,2026 年 4 月 16 日,Anthropic 悄然推出了 Claude Opus 4.7。
時(shí)機(jī),耐人尋味。
01
「退化」風(fēng)波,
Anthropic 欠開發(fā)者一個(gè)答案
要理解 Opus 4.7 的意義,得先說(shuō)清楚它出現(xiàn)之前發(fā)生了什么。
Opus 4.6 上線后,最初口碑不錯(cuò)。但隨著時(shí)間推移,開發(fā)者們開始陸續(xù)反映:這個(gè)模型在處理復(fù)雜工程任務(wù)時(shí),變得越來(lái)越「保守」,越來(lái)越容易在多步驟任務(wù)中途放棄,甚至開始給出「看起來(lái)合理但其實(shí)是錯(cuò)的」回答。
這種「退化感」在 AI 產(chǎn)品里是最致命的信任危機(jī)。用戶可以接受模型能力一般,但無(wú)法接受一個(gè)用熟了的工具突然變得不可靠。
從用數(shù)據(jù)角度看這件事,財(cái)報(bào)分析平臺(tái) Hex 的評(píng)估說(shuō)明了問(wèn)題的本質(zhì)。他們發(fā)現(xiàn) Opus 4.6 在遇到數(shù)據(jù)矛盾時(shí),會(huì)傾向于給出「看似合理的錯(cuò)誤回退」,而不是老老實(shí)實(shí)承認(rèn)「數(shù)據(jù)缺失,我沒(méi)法回答」。對(duì)一個(gè)要用來(lái)做數(shù)據(jù)分析的工具來(lái)說(shuō),這比「不會(huì)用」還危險(xiǎn)。
Anthropic 對(duì)這些反饋的回應(yīng)方式是,直接上新版本。沒(méi)有公開的解釋,沒(méi)有「我們聽到了」的官方聲明,就是一個(gè)新模型上線了。
對(duì)技術(shù)公司來(lái)說(shuō),這算是最直接的道歉方式。
02
Opus 4.7 到底強(qiáng)在哪
Anthropic 給 Opus 4.7 打的標(biāo)簽是「軟件工程領(lǐng)域的顯著提升」,并引入了一個(gè)全新的 xhigh 努力等級(jí)。
從具體數(shù)字來(lái)看,編碼基準(zhǔn)提升了 13%,生產(chǎn)級(jí)任務(wù)的自主完成率提升了 3 倍,同時(shí)還帶來(lái)了高達(dá) 3.75 兆像素的高分辨率視覺(jué)支持和更新的分詞器。
但這些官方數(shù)字對(duì)開發(fā)者來(lái)說(shuō)太抽象。更有說(shuō)服力的是來(lái)自 Cursor 團(tuán)隊(duì)的反饋。Cursor 是目前最受開發(fā)者青睞的 AI 編程工具之一,他們用自己的內(nèi)部基準(zhǔn) CursorBench 測(cè)試了 Opus 4.7,結(jié)果是自主編碼成功率從 Opus 4.6 的 58% 跳升到了 70%。
12 個(gè)百分點(diǎn)的差距,聽起來(lái)不大,但放在「自主完成復(fù)雜任務(wù)」這個(gè)維度上,意義完全不同。
過(guò)去在 Opus 4.6 上需要兩到三次提示才能搞定的任務(wù),在 4.7 上通常一次就能跑通。對(duì)真正在工作流里深度依賴 AI 的開發(fā)者來(lái)說(shuō),這直接等于減少了一半以上的來(lái)回調(diào)試成本。
Hex 對(duì) Opus 4.7 的評(píng)價(jià),則從另一個(gè)維度印證了這次升級(jí)的質(zhì)量。他們直接說(shuō)這是「評(píng)估過(guò)最強(qiáng)大的模型」,核心理由是它在面對(duì)數(shù)據(jù)矛盾時(shí),不再試圖給出貌似合理的錯(cuò)誤答案,而是選擇如實(shí)告知「數(shù)據(jù)缺失」。這聽起來(lái)像是一個(gè)很小的行為變化,但它指向的是模型「自知能力邊界」這個(gè)更深層的進(jìn)步。
價(jià)格沒(méi)有變化。輸入每百萬(wàn) token 5 美元,輸出每百萬(wàn) token 25 美元,和 Opus 4.6 完全一致。
03
兩周三更新,Anthropic 在打什么算盤
如果只是看這一次發(fā)布,Opus 4.7 是一次扎實(shí)的迭代升級(jí)。但把時(shí)間線拉長(zhǎng)到過(guò)去兩個(gè)月,這次更新的背后邏輯就更有意思了。
2026 年 1 月以來(lái),Anthropic 大約保持著每?jī)芍芤淮沃卮蟾碌墓?jié)奏。這個(gè)頻率,在 AI 軍備競(jìng)賽最激烈的今天,本身就是一種戰(zhàn)略表態(tài):
「我們?cè)谂?,我們不?huì)停」。
更值得關(guān)注的是與此同時(shí)發(fā)生的另一件事。
就在 Opus 4.7 發(fā)布前幾周,Anthropic 向精選企業(yè)客戶悄悄開放了 Claude Mythos Preview,這是作為 Project Glasswing 網(wǎng)絡(luò)安全計(jì)劃的一部分。
這個(gè)模型的能力之強(qiáng)讓人警惕,據(jù)報(bào)道它能夠滲透主要銀行系統(tǒng),且具備同時(shí)攻擊多個(gè)目標(biāo)的潛力。Anthropic 聯(lián)合創(chuàng)始人杰克 · 克拉克專門向特朗普政府做了匯報(bào),財(cái)政部長(zhǎng)斯科特 · 貝森特和美聯(lián)儲(chǔ)主席鮑威爾隨后也緊急召集了與銀行高管的會(huì)議。
這意味著 Anthropic 現(xiàn)在同時(shí)在打兩場(chǎng)戰(zhàn)爭(zhēng)。一場(chǎng)是公開的、對(duì)著開發(fā)者和企業(yè)客戶的產(chǎn)品戰(zhàn),Opus 4.7 是這場(chǎng)戰(zhàn)爭(zhēng)里的一顆棋子;另一場(chǎng)是關(guān)于 AI 能力邊界的政策博弈,Mythos 和 Project Glasswing 是這條線上更敏感的棋局。
這兩件事放在一起看,你會(huì)發(fā)現(xiàn) Anthropic 的產(chǎn)品哲學(xué),正在發(fā)生微妙的轉(zhuǎn)變。他們?cè)絹?lái)越清楚,最強(qiáng)大的模型不能直接扔給所有人用,但也不能把「足夠強(qiáng)」的模型做差了。
Opus 4.7 扮演的,就是這個(gè)「足夠強(qiáng)但可控部署」的角色。
04
開發(fā)者生態(tài)的新格局
Opus 4.7 的發(fā)布,對(duì)整個(gè)開發(fā)者工具生態(tài)的意味,不只是「Claude 又更新了」這么簡(jiǎn)單。
編程助手這個(gè)賽道,今天已經(jīng)是一場(chǎng)關(guān)于「工作流深度綁定」的戰(zhàn)爭(zhēng)。Cursor 選擇把 Opus 4.7 作為核心模型接入,這背后是一個(gè)明確的判斷,在當(dāng)前競(jìng)爭(zhēng)格局里,Claude 系列對(duì)復(fù)雜軟件工程任務(wù)的理解深度,依然有明顯優(yōu)勢(shì)。
VentureBeat 的一個(gè)分析視角很有意思,他們認(rèn)為 Opus 4.7 代表的,是 AI 從「創(chuàng)意助手」向「可靠執(zhí)行者」的角色遷移。這個(gè)說(shuō)法其實(shí)道出了企業(yè)采購(gòu)決策的核心邏輯,創(chuàng)意助手可以偶爾出錯(cuò),但執(zhí)行者不行。
不過(guò),也有值得留意的隱患。新分詞器的引入意味著,同樣的輸入文本可能會(huì)消耗更多 token,雖然單價(jià)不變,但實(shí)際成本有可能悄悄上漲。這對(duì)高頻調(diào)用 API 的企業(yè)來(lái)說(shuō),是需要重新測(cè)算的變量。
還有一個(gè)更根本的問(wèn)題,正如 Decrypt 的評(píng)論所指出的,AI 行業(yè)至,今仍沒(méi)有一套大家都認(rèn)可的能力評(píng)估標(biāo)準(zhǔn)。Anthropic 說(shuō)編碼基準(zhǔn)提升了 13%,但這個(gè)基準(zhǔn)和真實(shí)開發(fā)場(chǎng)景之間的距離,每個(gè)人的感受都不一樣。Cursor 的 70% 成功率數(shù)據(jù),比 Anthropic 自己發(fā)布的所有基準(zhǔn)都更有說(shuō)服力,正是因?yàn)樗鼇?lái)自真實(shí)工作流里的實(shí)際驗(yàn)證。
幾周前,開發(fā)者在 GitHub 上公開抱怨 Opus 4.6「不能用了」。今天,Anthropic 用一個(gè)新版本回應(yīng)了這份不滿,并且用實(shí)打?qū)嵉男阅軘?shù)據(jù)贏回了 Cursor、Hex 這些頭部工具團(tuán)隊(duì)的背書。
但用戶的信任不是靠一次發(fā)布能徹底修復(fù)的。每?jī)芍芤淮蔚牡?jié)奏,既是優(yōu)勢(shì),也是壓力,因?yàn)樗馕吨看伟l(fā)布都必須真的好,否則下一輪「退化」的聲音會(huì)來(lái)得更快。
對(duì) Anthropic 來(lái)說(shuō),真正的考驗(yàn)不是今天能不能發(fā)出一個(gè)更好的版本,而是能不能讓開發(fā)者相信,這個(gè)「更好」是持續(xù)的、可預(yù)期的。
這對(duì)任何 AI 公司來(lái)說(shuō),都是一個(gè)巨大的挑戰(zhàn)。
* 頭圖來(lái)源:LLM Stats
本文為極客公園原創(chuàng)文章,轉(zhuǎn)載請(qǐng)聯(lián)系極客君微信 geekparkGO
極客一問(wèn)
Opus4.7 的能力符合你的預(yù)期嗎?
