雷火竞技入口,雷火竞技官网电子

當(dāng)?shù)貢r(shí)間 4 月 16 日，Anthropic 正式發(fā)布新一代旗艦?zāi)Ｐ?Claude Opus 4.7。該公司將其定位為 " 迄今能力最強(qiáng)的通用可用模型 "，標(biāo)志著人工智能行業(yè)競(jìng)爭(zhēng)焦點(diǎn)的決定性轉(zhuǎn)變——從追求對(duì)話(huà)流暢性轉(zhuǎn)向考核自主任務(wù)執(zhí)行能力。

與兩個(gè)月前發(fā)布的 Opus 4.6 相比，新版本專(zhuān)為 Agentic 工作流設(shè)計(jì)，即需要 AI 在較長(zhǎng)時(shí)間內(nèi)獨(dú)立運(yùn)行、僅需少量人類(lèi)干預(yù)的復(fù)雜任務(wù)。此次更新優(yōu)先提升高分辨率視覺(jué)感知、復(fù)雜多步軟件工程鏈穩(wěn)定性，以及長(zhǎng)上下文檢索能力，而非單純追求推理深度（官方博客地址：https://www.anthropic.com/news/claude-opus-4-7）。

值得注意的是，Anthropic 在發(fā)布 Opus 4.7 的同時(shí)坦誠(chéng)表示，這并非其最強(qiáng)模型——能力更強(qiáng)的 Claude Mythos Preview 仍處于受限測(cè)試階段。

視覺(jué)智能突破與長(zhǎng)上下文瓶頸攻克

在企業(yè)級(jí)應(yīng)用場(chǎng)景的基準(zhǔn)測(cè)試中，Opus 4.7 與主要競(jìng)爭(zhēng)對(duì)手的性能差距進(jìn)一步拉大。在 OfficeQA Pro 評(píng)測(cè)中——該評(píng)測(cè)由 Databricks 開(kāi)發(fā)，要求模型解析近 9 萬(wàn)頁(yè)美國(guó)財(cái)政部歷史文件（涵蓋近 100 年公報(bào)、2600 萬(wàn)個(gè)數(shù)字）—— Opus 4.7 取得 80.6% 的得分。這一結(jié)果幾乎是谷歌 Gemini 3.1 Pro（42.9%）的兩倍，并大幅領(lǐng)先于 GPT-5.4（51.1%）。數(shù)據(jù)顯示，Anthropic 已在長(zhǎng)上下文檢索的關(guān)鍵瓶頸上取得突破。

在 BFS 1M 測(cè)試中——該測(cè)試由 OpenAI 設(shè)計(jì)，將一張有向圖用邊列表塞滿(mǎn) 100 萬(wàn) token 上下文，要求模型進(jìn)行圖遍歷—— Opus 4.7 從 Opus 4.6 的 41.2% 提升至 58.6%，提升幅度達(dá) 17.4 個(gè)百分點(diǎn)。這項(xiàng)指標(biāo)被視為衡量 AI 智能體（Agent）跑多步驟長(zhǎng)任務(wù)的硬性指標(biāo)。在 Vending-Bench 2 模擬經(jīng)營(yíng)測(cè)試中，Opus 4.7 最終實(shí)現(xiàn) 10,937 美元余額，較 Opus 4.6 的 8,018 美元提升 36%，展現(xiàn)出長(zhǎng)時(shí)間工作流中的決策連貫性?xún)?yōu)勢(shì)。

視覺(jué)智能是此版本進(jìn)步最為顯著的方面。

Opus 4.7 現(xiàn)在支持最長(zhǎng)邊達(dá) 2,576 像素的圖像輸入，分辨率約 375 萬(wàn)像素，較前代提升超過(guò)三倍。這使得模型能夠 " 看到 " 屏幕上占比低至 0.07% 的 UI 元素。在 ScreenSpot-Pro 基準(zhǔn)測(cè)試中——該基準(zhǔn)評(píng)估 AI 在 VSCode、Photoshop、AutoCAD 等專(zhuān)業(yè)軟件中定位特定按鈕或數(shù)據(jù)點(diǎn)的能力—— Opus 4.7 在高分辨率模式下配合工具調(diào)用功能達(dá)到 87.6% 的成功率，而 Opus 4.6 在低分辨率下僅為 57.7%。

這種精確度不再是單純的學(xué)術(shù)探索，而是 " 電腦使用 "（Computer Use）能力的前提。Anthropic 將圖像分辨率大幅提升的本質(zhì)目的，是讓 AI 能夠看懂軟件界面、密集表格、終端輸出、設(shè)計(jì)稿細(xì)節(jié)和代碼截圖。

未來(lái) AI 辦公、AI 測(cè)試、AI 安全、AI 前端開(kāi)發(fā)等任務(wù)，都將從純文本任務(wù)轉(zhuǎn)向屏幕任務(wù)。在 SWE-bench Multimodal 測(cè)試中——該測(cè)試要求模型結(jié)合 UI 截圖和代碼一起修復(fù)前端 JavaScript bug —— Opus 4.7 從 Opus 4.6 的 27.1% 提升至 34.5%，提升 7.4 個(gè)百分點(diǎn)。這表明視覺(jué)能力的升級(jí)直接服務(wù)于編程場(chǎng)景的實(shí)際需求。

Anthropic 在官方公告中特別強(qiáng)調(diào)，Opus 4.7 在指令遵循能力上出現(xiàn)顯著提升。過(guò)往模型可能會(huì)寬松地 " 糊弄 " 指令或完全跳過(guò)部分指示，但 Opus 4.7 會(huì)嚴(yán)格按字面意思執(zhí)行指令。

這一變化帶來(lái)雙重影響：一方面，它減少了提示詞 " 玄學(xué) "，使寫(xiě)需求、定格式、列限制條件變得更加可靠；另一方面，用戶(hù)可能需要重寫(xiě)舊的、更偏對(duì)話(huà)式的提示詞以避免意外輸出。許多用戶(hù)的提示詞是在舊模型 " 會(huì)自動(dòng)補(bǔ)全真實(shí)意圖 " 的習(xí)慣上調(diào)優(yōu)出來(lái)的，而新模型的剛性可能導(dǎo)致這些舊提示詞失效。

在高級(jí)軟件工程領(lǐng)域，這種嚴(yán)謹(jǐn)性轉(zhuǎn)化為顯著提升。在 SWE-bench Verified 測(cè)試中，Opus 4.7 得分為 87.6%，Opus 4.6 為 80.8%；在更難的 SWE-bench Pro 測(cè)試中，Opus 4.7 為 64.3%，Opus 4.6 為 53.4%。這意味著用戶(hù)可以將過(guò)去需要密切監(jiān)督的高難度編碼工作交給 Opus 4.7 處理，它會(huì)在匯報(bào)結(jié)果前主動(dòng)驗(yàn)證自身輸出。

Opus 4.7 在使用基于文件系統(tǒng)的記憶方面表現(xiàn)更為出色。它能在長(zhǎng)時(shí)間、多會(huì)話(huà)的工作中記住重要筆記，并將其用于開(kāi)展新的任務(wù)，因此新任務(wù)需要更少的前置上下文。一個(gè)能跨會(huì)話(huà)記住項(xiàng)目約束、用戶(hù)偏好、架構(gòu)決策和上次失敗原因的 Agent，才可能從 " 聰明臨時(shí)工 " 變成 " 穩(wěn)定同事 "。這一特性在官方公告中并不顯眼，但可能是長(zhǎng)期使用中最關(guān)鍵的更新。

伴隨 Opus 4.7 發(fā)布，Anthropic 還更新了 Claude Code，新增 auto mode 和 /ultrareview 功能。auto mode 不是模型自動(dòng)選型，而是權(quán)限選項(xiàng)。它允許 Claude 替用戶(hù)做一些權(quán)限決策，讓長(zhǎng)任務(wù)少被打斷，但風(fēng)險(xiǎn)低于完全跳過(guò)權(quán)限確認(rèn)。

這個(gè)設(shè)計(jì)針對(duì)的是 Agent 產(chǎn)品的核心矛盾：?jiǎn)柼啵珹gent 像實(shí)習(xí)生；不問(wèn)，風(fēng)險(xiǎn)又太大。auto mode 的本質(zhì)，就是在 " 別煩我 " 和 " 別亂來(lái) " 之間找平衡。/ultrareview 是一個(gè)專(zhuān)門(mén)的代碼審查會(huì)話(huà)，可讀取變更并指出 bug 和設(shè)計(jì)問(wèn)題。

這標(biāo)志著 AI 編程正式進(jìn)入第二階段：讓 AI 自己審查 AI 自己生成的代碼。生成代碼只是開(kāi)發(fā)流程的一部分，審查、測(cè)試、重構(gòu)、文檔同樣重要。如果 AI 只能做第一步，它永遠(yuǎn)只是輔助工具；如果它能參與整個(gè)流程，它才可能真正改變軟件開(kāi)發(fā)的方式。

專(zhuān)業(yè)領(lǐng)域的經(jīng)濟(jì)價(jià)值正加速釋放

在 Structural Biology（結(jié)構(gòu)生物學(xué)）基準(zhǔn)測(cè)試中，Opus 4.7 的推理得分從 Opus 4.6 的 30.9% 躍升至 74.0%，一次版本迭代實(shí)現(xiàn) 2.4 倍增長(zhǎng)。這是所有基準(zhǔn)測(cè)試中躍升最夸張的一項(xiàng)。這種分子推理能力的突破表明，該模型正在從通用輔助邁向?qū)I(yè)科學(xué)研究領(lǐng)域。對(duì)于更廣泛的勞動(dòng)力市場(chǎng)而言，模型改進(jìn)后的指令遵循能力意味著在短時(shí)間內(nèi)它更不容易產(chǎn)生 " 幻覺(jué) " 或遺漏步驟。

在金融分析領(lǐng)域，Opus 4.7 同樣取得領(lǐng)先地位。在 Finance Agent v11 測(cè)試中，Opus 4.7 得分為 64.4%，Opus 4.6 為 60.1%。在 GDPval-AA 評(píng)估中——該評(píng)估由 Artificial Analysis 基于 OpenAI GDPval 數(shù)據(jù)集開(kāi)發(fā)，覆蓋 44 種知識(shí)工作職業(yè)、9 大 GDP 核心行業(yè)，任務(wù)來(lái)自資深職業(yè)人士（平均 14 年經(jīng)驗(yàn)）的真實(shí)交付物—— Opus 4.7 獲得 1753 分的 Elo 評(píng)分，高于 Opus 4.6（1619 分）、GPT-5.4（1674 分）和 Gemini 3.1 Pro（1314 分）。

Anthropic 介紹稱(chēng)，Opus 4.7 在金融分析任務(wù)上能夠生成更嚴(yán)謹(jǐn)?shù)姆治雠c建模、更專(zhuān)業(yè)的報(bào)告展示，并在各項(xiàng)任務(wù)間實(shí)現(xiàn)更緊密的整合。

在發(fā)布 Opus 4.7 的同時(shí)，Anthropic 推出了一份系統(tǒng)說(shuō)明書(shū)并更新了 Cyber Verification Program（網(wǎng)絡(luò)安全驗(yàn)證計(jì)劃）。該項(xiàng)目本質(zhì)上是對(duì)能力進(jìn)行分級(jí)：普通用戶(hù)拿到的是有護(hù)欄的 Opus，經(jīng)過(guò)驗(yàn)證的安全專(zhuān)家才能申請(qǐng)更寬的網(wǎng)絡(luò)安全用途權(quán)限。值得注意的是，Anthropic 有意限制了 Opus 4.7 的高級(jí)網(wǎng)絡(luò)安全能力，使其低于 Mythos Preview 模型中的水平，以防止在進(jìn)攻性操作中的濫用。官方甚至表示，他們?cè)谟?xùn)練過(guò)程中實(shí)驗(yàn)性地削弱了這個(gè)模型的網(wǎng)絡(luò)安全能力。

Opus 4.7 被明確定位為 " 第一款用來(lái)測(cè)試新網(wǎng)絡(luò)安全護(hù)欄的公開(kāi)模型 "。Anthropic 表示，他們會(huì)從 Opus 4.7 的真實(shí)部署中學(xué)習(xí)，為未來(lái) Mythos 級(jí)別模型的廣泛發(fā)布做準(zhǔn)備。這種謹(jǐn)慎的部署策略凸顯了硅谷日益增長(zhǎng)的緊張關(guān)系：在爭(zhēng)相打造能夠替代人類(lèi)工作者的模型的同時(shí)，也要確保同一模型無(wú)法摧毀數(shù)字基礎(chǔ)設(shè)施。當(dāng)模型能力達(dá)到某個(gè)臨界點(diǎn)后，競(jìng)爭(zhēng)邏輯從 " 我比你強(qiáng) " 開(kāi)始轉(zhuǎn)向 " 會(huì)不會(huì)出事 "。

特朗普政府最近強(qiáng)調(diào)美國(guó)在 AI 安全方面需要發(fā)揮領(lǐng)導(dǎo)作用，Anthropic 的發(fā)布策略正是對(duì)這一政策導(dǎo)向的呼應(yīng)。公司選擇先把最強(qiáng)的模型鎖起來(lái)，用稍弱但足夠好的模型來(lái)測(cè)試安全機(jī)制。這不是技術(shù)上做不到，而是主動(dòng)選擇不做。這種 " 克制 " 本身成了產(chǎn)品差異化的一部分。至少在發(fā)布策略上，Anthropic 給出了一種新思路：有時(shí)候 " 不做什么 " 比 " 能做什么 " 更重要。

Token 消耗激增背后的成本邏輯

效率也意味著實(shí)實(shí)在在的成本。

Opus 4.7 使用了修訂后的分詞器（tokenizer），使得相同輸入量下的 token 消耗大約增加了 10% 到 35%。雖然 Anthropic 在定價(jià)上與 Opus 4.5 和 Opus 4.6 保持一致（輸入每百萬(wàn) token 5 美元，輸出每百萬(wàn) token 25 美元），但 token 密度的增加意味著高強(qiáng)度任務(wù)將更快消耗 API 積分。

這種隱性成本上漲是模型增加 " 思考 " 時(shí)間的代價(jià)。尤其在使用新的 Xhigh Effort 模式時(shí)——該模式位于標(biāo)準(zhǔn)處理與最大推理深度之間——模型會(huì)進(jìn)行更多內(nèi)部推理，從而提高可靠性，但也會(huì)產(chǎn)生更多輸出 token。Anthropic 在遷移指南中提醒用戶(hù)，Opus 4.7 的 token 使用可能增加，但在實(shí)際編程評(píng)估中，整體效率反而提升了。

這說(shuō)明他們優(yōu)化的不是單次調(diào)用的成本，而是完成任務(wù)的總成本。一個(gè) Agent 如果第一次就把事情做對(duì)，即使單次調(diào)用貴一點(diǎn)，總成本也比反復(fù)試錯(cuò)要低。這是一種更成熟的產(chǎn)品思路。早期 AI 產(chǎn)品追求的是 " 便宜 " 和 " 快 "，現(xiàn)在開(kāi)始追求 " 靠譜 "。

Anthropic 新增的 x-high effort 和 task budgets（任務(wù)預(yù)算）功能，說(shuō)明高端模型的使用方式正在走當(dāng)年云計(jì)算的那套邏輯。用戶(hù)買(mǎi)的不是一次回答，而是在給一個(gè)會(huì)思考、會(huì)試錯(cuò)、會(huì)驗(yàn)證的任務(wù)過(guò)程付費(fèi)。

過(guò)去模型計(jì)費(fèi)主要看輸入輸出長(zhǎng)度，現(xiàn)在還要看思考的等級(jí)、任務(wù)預(yù)算、Agent 跑了幾輪、工具失敗后有沒(méi)有繼續(xù)推理。這種計(jì)費(fèi)模式的演變，反映出 Agent 產(chǎn)品從 " 能干什么 " 到 " 能不能用 " 的巨大飛躍。

綜合來(lái)看，Opus 4.7 不是最強(qiáng)的模型，Anthropic 也沒(méi)有把它包裝成最強(qiáng)的模型。它是在能力、安全、成本之間的一個(gè)平衡點(diǎn)。至于這個(gè)平衡點(diǎn)是否真的平衡，需要等待市場(chǎng)來(lái)驗(yàn)證。

可以確定的是，隨著 Opus 4.7 的發(fā)布，AI 行業(yè)競(jìng)爭(zhēng)的核心指標(biāo)已經(jīng)改變。大模型競(jìng)爭(zhēng)的焦點(diǎn)，正在從答得像不像，轉(zhuǎn)到做得完不完。只會(huì)寫(xiě)一段漂亮答案，已經(jīng)不夠了。能不能把一份長(zhǎng)文檔改干凈，能不能把一套資料串起來(lái)做成可交付物，能不能持續(xù)幾十分鐘甚至更久不跑偏，這才會(huì)決定它在日常工作里能不能真的替人扛起一片天。

這個(gè)策略能否成功，取決于市場(chǎng)是否認(rèn)可 " 謹(jǐn)慎 " 這個(gè)概念。如果用戶(hù)只在乎 " 能不能做到 "，那 Anthropic 的做法會(huì)顯得保守。但如果企業(yè)客戶(hù)開(kāi)始重視 " 會(huì)不會(huì)出事 "，那這種分級(jí)發(fā)布、主動(dòng)削弱某些能力的做法，反而可能成為競(jìng)爭(zhēng)優(yōu)勢(shì)。（本文首發(fā)鈦媒體 APP，作者 | 硅谷 Tech_news，編輯 | 秦聰慧）

电竞比分网-中国电竞赛事及体育赛事平台

宙世代元宇宙

元宇宙黨建解決方案

元宇宙文旅解決方案

元宇宙展廳解決方案

元宇宙行業(yè)峰會(huì)解決方案

元宇宙營(yíng)銷(xiāo)解決方案

元宇宙會(huì)展解決方案

元宇宙演藝節(jié)目解決方案

元宇宙博物館解決方案

元宇宙圖書(shū)館解決方案

元宇宙校園解決方案

元宇宙企業(yè)展廳解決方案

元宇宙藝術(shù)展解決方案

元宇宙電商解決方案

融媒體解決方案

ZAKER智慧云

媒體解決方案

黨建解決方案

公檢法解決方案

智慧交通解決方案

高校解決方案

AI視頻

AI視頻剪輯

視頻定制服務(wù)

AI智能客服

我的訂閱

長(zhǎng)文問(wèn)答準(zhǔn)確率大漲 17% 后，Anthropic 把“不亂猜”做成了核心賣(mài)點(diǎn)

宙世代

一起剪

相關(guān)閱讀

黃仁勛現(xiàn)身美國(guó)海底撈！與網(wǎng)友合影還送簽名：盤(pán)點(diǎn)AI教父吃火鍋名場(chǎng)面

被網(wǎng)友吹上天的名人AI，一開(kāi)口我就知道是個(gè)水貨。

佳能發(fā)布40厘米巨無(wú)霸鏡頭：1200mm超長(zhǎng)焦距：升級(jí)30倍變焦

獨(dú)家專(zhuān)訪(fǎng)安森美總裁Hassane El-Khoury：從銷(xiāo)售市場(chǎng)到創(chuàng)新之地 中國(guó)速度反哺全球

從看過(guò)去到看未來(lái)：上海農(nóng)商銀行助力產(chǎn)業(yè)鏈強(qiáng)鏈補(bǔ)鏈的科技金融實(shí)踐

扎克伯格親自下場(chǎng)寫(xiě)代碼 把辦公桌搬進(jìn)Meta AI實(shí)驗(yàn)室

專(zhuān)訪(fǎng)中國(guó)工業(yè)互聯(lián)網(wǎng)研究院院長(zhǎng)魯春叢：推進(jìn)工業(yè)智能應(yīng)用 “七分在數(shù)據(jù)、三分在模型”

具身智能機(jī)器人企業(yè) 集體沖向百億估值

科技基金調(diào)倉(cāng)動(dòng)向曝光 AI電力、光通信、半導(dǎo)體獲加倉(cāng)

瞄準(zhǔn)實(shí)戰(zhàn) 中公教育加速布局“AI+職業(yè)教育”

微軟接手OpenAI挪威“星際之門(mén)”項(xiàng)目 租用3萬(wàn)枚英偉達(dá)芯片

AI短劇“盜臉”終被“打臉”

微短劇告別“草莽時(shí)代”，黃曉明張凱麗等探討微短劇未來(lái)

給“人造太陽(yáng)”裝上大腦，是一門(mén)什么樣的生意？

最新評(píng)論

鈦媒體

熱門(mén)推薦

企業(yè)資訊

長(zhǎng)文問(wèn)答準(zhǔn)確率大漲 17% 后，Anthropic 把“不亂猜”做成了核心賣(mài)點(diǎn)

黃仁勛現(xiàn)身美國(guó)海底撈！與網(wǎng)友合影還送簽名：盤(pán)點(diǎn)AI教父吃火鍋名場(chǎng)面

被網(wǎng)友吹上天的名人AI，一開(kāi)口我就知道是個(gè)水貨。

獨(dú)家專(zhuān)訪(fǎng)安森美總裁Hassane El-Khoury：從銷(xiāo)售市場(chǎng)到創(chuàng)新之地中國(guó)速度反哺全球

扎克伯格親自下場(chǎng)寫(xiě)代碼把辦公桌搬進(jìn)Meta AI實(shí)驗(yàn)室

科技基金調(diào)倉(cāng)動(dòng)向曝光 AI電力、光通信、半導(dǎo)體獲加倉(cāng)

微軟接手OpenAI挪威“星際之門(mén)”項(xiàng)目租用3萬(wàn)枚英偉達(dá)芯片

微短劇告別“草莽時(shí)代”，黃曉明張凱麗等探討微短劇未來(lái)

給“人造太陽(yáng)”裝上大腦，是一門(mén)什么樣的生意？