雷火体育app官方网站,雷火体育app官方网站

文 | 字母 AI

如果有一天，AI 比人類更聰明了，我們這群有機(jī)體到底應(yīng)該怎么辦？

他們要是反過來消滅我們，我們又怎么抵抗？

各種科幻電影都討論過相似的問題，可那只是文學(xué)、藝術(shù)和哲學(xué)方面的。

現(xiàn)如今，Anthropic 正兒八經(jīng)做了個(gè)實(shí)驗(yàn)，以證實(shí)我們到底能不能監(jiān)督比自己更聰明的 AI。

實(shí)驗(yàn)結(jié)果很有趣，但過程更有意思。

因?yàn)?Anthropic 用兩個(gè)不同版本的阿里千問模型，來分別代表人類和比人類聰明的 AI。

其結(jié)果就是，我們?nèi)祟愓f不定還真能管得住超級(jí) AI！

01 這篇論文到底在說什么

這篇研究的標(biāo)題叫 "Automated Alignment Researchers"，翻譯過來就是 " 自動(dòng)化對(duì)齊研究員 "。

它要解決的問題很現(xiàn)實(shí)，那就是當(dāng) AI 變得比人類更聰明時(shí)，我們?cè)趺创_保它還聽人話？

現(xiàn)在的模型已經(jīng)能生成大量的代碼了，未來將可以生成幾百萬行復(fù)雜代碼，以至于人類根本看不懂。我們又該如何去審查這些代碼？

這就是 AI 安全領(lǐng)域一直在研究的 " 可擴(kuò)展監(jiān)督 " 問題。

Anthropic 這次研究的切入點(diǎn)叫 " 弱監(jiān)督強(qiáng)模型 "。

這個(gè)概念我們可以這么理解，假設(shè)你是個(gè)小學(xué)老師，現(xiàn)在要教一個(gè)天才高中生。你的知識(shí)有限，學(xué)生懂得知識(shí)比你更多。

那么請(qǐng)問，他最后能學(xué)成什么樣的水平？是只學(xué)到你這個(gè)小學(xué)老師的水平，還是能突破你的局限，發(fā)揮出自己的真實(shí)能力？

在實(shí)驗(yàn)里，Anthropic 用小模型扮演 " 弱老師 "，用更強(qiáng)的模型扮演 " 強(qiáng)學(xué)生 "。

具體來說，他們用 Qwen1.5-0.5B-Chat 當(dāng)老師，用 Qwen3-4B-Base 當(dāng)學(xué)生。讓弱模型給強(qiáng)模型提供訓(xùn)練信號(hào)，然后看強(qiáng)模型能不能從這些不夠完美的信號(hào)里，學(xué)到接近理想狀態(tài)的表現(xiàn)。

衡量標(biāo)準(zhǔn)叫 PGR，全稱是 Performance Gap Recovered，意思是 " 性能差距恢復(fù)程度 "。

如果 PGR 是 0，說明強(qiáng)模型只學(xué)到了弱老師的水平，白瞎了自己的知識(shí)。如果 PGR 是 1，說明強(qiáng)模型徹底突破了弱老師的限制。

弱模型就相當(dāng)于未來的人類，強(qiáng)模型就相當(dāng)于未來那些超越人類的 AI。

如果我們能在今天就找到辦法，讓強(qiáng)模型不被弱監(jiān)督拖累，那未來我們就能用類似的方法，去監(jiān)督超級(jí) AI。

在人類研究員調(diào)試出基線之后，Anthropic 派出了 9 個(gè)基于 Claude Opus 4.6 的 agent 來給學(xué)生 Qwen 進(jìn)行微調(diào)，這 9 個(gè) agent 叫做 Automated Alignment Researcher（自動(dòng)化對(duì)齊研究員），簡稱 AAR。

Anthropic 給它們配備了沙盒環(huán)境、代碼工具、共享論壇、評(píng)分服務(wù)器，然后告訴它們：" 去吧，自己想辦法提高 Qwen3-4B-Base 的 PGR。"

這些 AI 研究員可以自己提出假設(shè)、寫代碼、訓(xùn)練模型、提交實(shí)驗(yàn)、看分?jǐn)?shù)、分析失敗原因、和其他 AI 研究員交流發(fā)現(xiàn)、繼續(xù)迭代。

結(jié)果相當(dāng)驚人。

人類研究員先花了 7 天時(shí)間，調(diào)試了 4 種已有方法，最好的 PGR 只有 0.23。然后 9 個(gè) Claude 接手，繼續(xù)跑了 5 天，累計(jì)大約 800 小時(shí)研究時(shí)間，最后把 PGR 推到了 0.97。

也就是說，我們大概率可以管得住比我們更聰明的超級(jí) AI。

這個(gè)實(shí)驗(yàn)總成本約 1.8 萬美元，包括 API 調(diào)用和模型訓(xùn)練的計(jì)算成本，折合每個(gè) AI 研究員工作一小時(shí)約 22 美元。

什么概念？沃爾瑪零售門店負(fù)責(zé)給員工排班的副店長，時(shí)薪差不多是 25 美元。

這個(gè)結(jié)果讓人震撼的地方不在于 AI 能寫代碼或者讀論文，而在于它們能完成一個(gè)完整的研究閉環(huán)。提出想法、驗(yàn)證、失敗、改進(jìn)、再驗(yàn)證，這已經(jīng)接近一個(gè)研究助理的核心工作流程了。

但問題來了，這些 AI 發(fā)現(xiàn)的方法，真的有用嗎？還是只是在特定環(huán)境里碰巧有效？

Anthropic 做了兩個(gè)測試來驗(yàn)證。

第一個(gè)測試是把 AI 發(fā)現(xiàn)的最好兩種方法，拿去測試它們沒見過的數(shù)學(xué)和代碼任務(wù)。

結(jié)果顯示，效果最好的方法在數(shù)學(xué)任務(wù)上 PGR 達(dá)到 0.94，在代碼任務(wù)上達(dá)到 0.47，雖然代碼任務(wù)上的表現(xiàn)差一些，但仍然是人類基線的兩倍。其次的方法在數(shù)學(xué)上還行，但在代碼任務(wù)上反而讓結(jié)果變差了。

說明它有一定遷移跡象，但泛化并不穩(wěn)定。

但它們會(huì)嚴(yán)重依賴具體的數(shù)據(jù)集和任務(wù)結(jié)構(gòu)，也就是說并不是所有人任務(wù)都能勝任。

第二個(gè)測試是 Anthropic 把剛才提到的效果最好的方法，拿到了 Claude Sonnet 4 的真實(shí)訓(xùn)練上，來看看實(shí)際效果如何。

結(jié)果沒有得到統(tǒng)計(jì)顯著的提升。

也就是說，在小模型、清晰指標(biāo)、可以反復(fù)提交的實(shí)驗(yàn)環(huán)境里效果很好，但離 " 直接改進(jìn)生產(chǎn)級(jí) Claude 對(duì)齊 " 還有距離。

這個(gè)結(jié)果其實(shí)很誠實(shí)。它告訴我們，AI 研究員現(xiàn)在能做的事情是有邊界的。它們擅長在目標(biāo)明確、能自動(dòng)評(píng)分、能大量試錯(cuò)的問題上快速迭代，但遇到更復(fù)雜、更模糊的現(xiàn)實(shí)問題時(shí)，還需要人類的判斷和介入。

那這篇論文的意義到底在哪里？

首先，它證明了 "AI 做研究 " 已經(jīng)不是口號(hào)了。

過去我們總說 AI 可以輔助研究，然而那只是口號(hào)而已，AI 能做的事情也就是翻譯和總結(jié)。

這次不一樣，AI 自己形成了研究閉環(huán)，這已經(jīng)接近研究助理的核心能力了。

弱監(jiān)督強(qiáng)模型這個(gè)問題，本質(zhì)上就是在模擬未來人類監(jiān)督超級(jí) AI 的場景。

這篇論文證明，至少在一些清晰任務(wù)上，AI 可以自己找到辦法，讓強(qiáng)模型不被弱監(jiān)督拖死。這為未來的對(duì)齊研究提供了一個(gè)可行的方向。

還有一點(diǎn)，它暗示未來對(duì)齊研究的瓶頸可能會(huì)變。

以前瓶頸是 " 沒人想出足夠多好點(diǎn)子 "，現(xiàn)在如果 AI 研究員能便宜地并行跑很多實(shí)驗(yàn)，瓶頸可能變成 " 怎么設(shè)計(jì)不會(huì)被鉆空子的評(píng)測 "。

也就是說，人類研究員未來更重要的工作，可能不是親自跑每個(gè)實(shí)驗(yàn)，而是設(shè)計(jì)評(píng)估體系、檢查 AI 研究員有沒有作弊、判斷結(jié)果是不是真的有意義。

這一點(diǎn)在論文里也有體現(xiàn)。

Anthropic 的文章中寫到，在數(shù)學(xué)任務(wù)里，有個(gè) AI 研究員發(fā)現(xiàn)最常見的答案通常是對(duì)的，于是繞過弱老師，直接讓強(qiáng)模型選最常見答案。在代碼任務(wù)里，AI 研究員發(fā)現(xiàn)自己可以直接運(yùn)行代碼測試，然后讀出正確答案。

這對(duì)任務(wù)來說就是作弊，因?yàn)樗皇窃诮鉀Q弱監(jiān)督問題，而是在利用環(huán)境漏洞。

這些結(jié)果被 Anthropic 識(shí)別并剔除了，但這恰好說明自動(dòng)化研究員越強(qiáng)，越會(huì)尋找評(píng)分系統(tǒng)的漏洞。

以后如果讓 AI 自動(dòng)做對(duì)齊研究，必須把評(píng)測環(huán)境設(shè)計(jì)得非常嚴(yán)密，還要有人類檢查方法本身，而不是只看分?jǐn)?shù)。

所以這篇論文的核心結(jié)論是今天的前沿模型，已經(jīng)可以在某些定義清楚、能自動(dòng)打分的對(duì)齊研究問題上，像小型研究員團(tuán)隊(duì)一樣自己提想法、跑實(shí)驗(yàn)、復(fù)盤結(jié)果，并且明顯超過人類基線。

不過它還不是 "AI 科學(xué)家已經(jīng)到來 " 的鐵證，畢竟 Anthropic 這次選擇的是一個(gè)能夠自動(dòng)化的任務(wù)，如果我給 AI 安排一個(gè)不能自動(dòng)化的任務(wù)，那么結(jié)果將會(huì)非常糟糕。

現(xiàn)實(shí)中的很多對(duì)齊問題更模糊，不能輕松打分，也不能只靠爬榜解決。

02 為什么選擇 Qwen

看完 Anthropic 這篇論文，很多人可能會(huì)好奇：為什么他們用的是阿里的 Qwen 模型，而不是自家的 Claude 或者 OpenAI 的 GPT？

這個(gè)選擇背后其實(shí)有很多考量。

首先得說清楚，這個(gè)實(shí)驗(yàn)里用的是兩個(gè) Qwen 模型：Qwen1.5-0.5B-Chat 當(dāng)弱老師，Qwen3-4B-Base 當(dāng)強(qiáng)學(xué)生。一個(gè)只有 5 億參數(shù)，一個(gè)有 40 億參數(shù)，規(guī)模差了 8 倍。這個(gè)規(guī)模差異很重要，因?yàn)閷?shí)驗(yàn)要模擬的就是 " 弱老師教強(qiáng)學(xué)生 " 的場景。

那為什么不用 Claude 或者 GPT 呢？

答案很簡單，因?yàn)檫@些模型不開放權(quán)重模型。

Anthropic 這個(gè)實(shí)驗(yàn)需要反復(fù)訓(xùn)練模型、調(diào)整參數(shù)、測試不同的監(jiān)督方法。

如果用閉源模型，他們只能通過 API 調(diào)用，沒法深入模型內(nèi)部去做精細(xì)的訓(xùn)練和調(diào)整。

更關(guān)鍵的是，他們需要讓 9 個(gè) AI 研究員并行跑幾百次實(shí)驗(yàn)，每次實(shí)驗(yàn)都要訓(xùn)練一個(gè)新模型。如果用閉源模型，成本會(huì)高到離譜，而且很多操作根本做不了。

開源模型就不一樣了。

你可以下載完整的模型權(quán)重，在自己的服務(wù)器上隨便折騰。想怎么訓(xùn)練就怎么訓(xùn)練，想跑多少次實(shí)驗(yàn)就跑多少次。這種靈活性是閉源模型給不了的。

但開源模型那么多，為什么偏偏選 Qwen?

官方并沒有給出真正的原因，以下原因均為我的推測。

我認(rèn)為性能好是第一個(gè)原因。

Qwen 系列模型在開源模型里一直表現(xiàn)不錯(cuò)，尤其是 Qwen3 發(fā)布后，在多個(gè)基準(zhǔn)測試上都達(dá)到了接近閉源模型的水平。

對(duì)于這個(gè)實(shí)驗(yàn)來說，強(qiáng)學(xué)生的能力很重要，如果強(qiáng)學(xué)生本身能力不行，那弱監(jiān)督再好也沒用。Qwen3-4B 雖然只有 40 億參數(shù)，但能力已經(jīng)足夠強(qiáng)，可以作為一個(gè)合格的 " 強(qiáng)學(xué)生 "。

第二個(gè)原因是模型的可用性。

Qwen 模型的文檔完善，社區(qū)活躍，訓(xùn)練和推理的工具鏈都很成熟。對(duì)于需要反復(fù)訓(xùn)練和測試的實(shí)驗(yàn)來說，這些基礎(chǔ)設(shè)施的完善程度直接影響研究效率。如果選一個(gè)文檔不全、工具不好用的開源模型，光是調(diào)試環(huán)境就要浪費(fèi)大量時(shí)間。

第三個(gè)原因是規(guī)模的適配性。

這個(gè)實(shí)驗(yàn)需要一個(gè) " 弱老師 " 和一個(gè) " 強(qiáng)學(xué)生 "，而且這兩個(gè)模型要有明顯的能力差距，但又不能差太多。

Qwen 系列有從 5 億到 720 億參數(shù)的多個(gè)版本，可以靈活選擇。5 億參數(shù)的模型足夠弱，但又不至于弱到完全沒用；40 億參數(shù)的模型足夠強(qiáng)，但又不至于強(qiáng)到訓(xùn)練成本承受不了。這個(gè)搭配剛剛好。

最后一個(gè)原因是可復(fù)現(xiàn)性。

Anthropic 在論文最后明確表示，他們把代碼和數(shù)據(jù)集都公開了，放在 GitHub 上。如果他們用的是閉源模型，其他研究者想復(fù)現(xiàn)這個(gè)實(shí)驗(yàn)就很困難，因?yàn)樗麄儧]法獲得相同的模型。

但用 Qwen 這樣的開源模型，任何人都可以下載相同的模型權(quán)重，跑相同的代碼，驗(yàn)證相同的結(jié)果。這對(duì)科研來說非常重要。

從這個(gè)角度看，Anthropic 選擇 Qwen，一方面確實(shí)是對(duì)阿里模型性能的認(rèn)可。如果 Qwen 的能力不行，或者訓(xùn)練起來問題很多，他們不會(huì)選。但另一方面，更重要的是 Qwen 作為開源模型帶來的靈活性和可復(fù)現(xiàn)性。

而中國的開源 AI 項(xiàng)目，正在這個(gè)基礎(chǔ)設(shè)施中占據(jù)越來越重要的位置。這對(duì)全球 AI 安全研究來說是好事，對(duì)中國 AI 生態(tài)來說也是好事。因?yàn)?AI 安全不是零和游戲，不是你贏我輸，而是大家一起努力，讓 AI 變得更安全、更可控、更有益于人類。

电竞比分网-中国电竞赛事及体育赛事平台

宙世代元宇宙

元宇宙黨建解決方案

元宇宙文旅解決方案

元宇宙展廳解決方案

元宇宙行業(yè)峰會(huì)解決方案

元宇宙營銷解決方案

元宇宙會(huì)展解決方案

元宇宙演藝節(jié)目解決方案

元宇宙博物館解決方案

元宇宙圖書館解決方案

元宇宙校園解決方案

元宇宙企業(yè)展廳解決方案

元宇宙藝術(shù)展解決方案

元宇宙電商解決方案

融媒體解決方案

ZAKER智慧云

媒體解決方案

黨建解決方案

公檢法解決方案

智慧交通解決方案

高校解決方案

AI視頻

AI視頻剪輯

視頻定制服務(wù)

AI智能客服

我的訂閱

人類能管住 AI 嗎？Anthropic 用千問做了個(gè)實(shí)驗(yàn)

宙世代

一起剪

相關(guān)閱讀

在硅谷和兩個(gè) AI 工程師聊完，我覺得下一代汽車可能不是車了

三星顯示器4月國內(nèi)全面斷供！訂單統(tǒng)統(tǒng)作廢

LCD時(shí)代落幕！iPad Air轉(zhuǎn)投OLED：三星成主要供應(yīng)商

性能暴增40倍！特斯拉最新一代AI5芯片成功流片：馬斯克首次公開實(shí)物照

史無前例！榮耀試產(chǎn)11000mAh巨無霸電池：徹底告別充電寶

英特爾Ultra5 250K Plus核顯實(shí)測：1080p下CS2平均91fps 原神60fps

力壓Seedance！阿里HappyHorse兩周后上線：4月30日開放API

格力高管朱磊炮轟家電友商被狂懟：“真銅實(shí)料”這四個(gè)字不姓格 屬于所有中國人

散熱拉滿性能不減！OPPO K15 Pro深度體驗(yàn)評(píng)測：榨干天璣8500 SUPER的最后一滴性能

超頻三推出TS700D工作站風(fēng)冷：七熱管+雙風(fēng)扇 定價(jià)559

AI視頻三國殺：阿里逼宮，字節(jié)開放

全球智能手機(jī)出貨量下滑6%：榮耀、蘋果唯二逆勢(shì)增長！

一千塊的錄音卡片，憑什么還敢每年多收一千塊錢？

蘋果緊急提醒iPhone用戶更新系統(tǒng)：舊版本iOS面臨數(shù)據(jù)被盜風(fēng)險(xiǎn)

最新評(píng)論

鈦媒體

熱門推薦

企業(yè)資訊

人類能管住 AI 嗎？Anthropic 用千問做了個(gè)實(shí)驗(yàn)

在硅谷和兩個(gè) AI 工程師聊完，我覺得下一代汽車可能不是車了

三星顯示器4月國內(nèi)全面斷供！訂單統(tǒng)統(tǒng)作廢

LCD時(shí)代落幕！iPad Air轉(zhuǎn)投OLED：三星成主要供應(yīng)商

史無前例！榮耀試產(chǎn)11000mAh巨無霸電池：徹底告別充電寶

力壓Seedance！阿里HappyHorse兩周后上線：4月30日開放API

格力高管朱磊炮轟家電友商被狂懟：“真銅實(shí)料”這四個(gè)字不姓格屬于所有中國人

散熱拉滿性能不減！OPPO K15 Pro深度體驗(yàn)評(píng)測：榨干天璣8500 SUPER的最后一滴性能

超頻三推出TS700D工作站風(fēng)冷：七熱管+雙風(fēng)扇定價(jià)559

AI視頻三國殺：阿里逼宮，字節(jié)開放

全球智能手機(jī)出貨量下滑6%：榮耀、蘋果唯二逆勢(shì)增長！

一千塊的錄音卡片，憑什么還敢每年多收一千塊錢？