电竞比分网-中国电竞赛事及体育赛事平台

關(guān)于ZAKER Skills 合作
智東西 25分鐘前

李飛飛看不下去了!親自下場“辟謠”世界模型

智東西

編譯 | 陳佳

編輯 | 漠影

智東西 6 月 4 日消息,今日,斯坦福大學(xué)教授、空間智能創(chuàng)業(yè)公司 World Labs 聯(lián)合創(chuàng)始人兼 CEO 李飛飛(Fei-Fei Li)與團(tuán)隊發(fā)布新文章《世界模型的功能分類》,系統(tǒng)拆解了當(dāng)下被廣泛使用卻釋義混亂的 " 世界模型 "。

文章指出,計算機(jī)視覺、機(jī)器人、強(qiáng)化學(xué)習(xí)和生成式 AI 各領(lǐng)域的人士都宣稱其在研發(fā)世界模型,但各方所指內(nèi)涵截然不同。李飛飛試圖從強(qiáng)化學(xué)習(xí)經(jīng)典的 POMDP(部分可觀測馬爾可夫決策過程)框架出發(fā),為這一概念建立清晰的功能分類體系。

李飛飛將世界模型歸納為渲染器(renderer)、仿真器(simulator)、規(guī)劃器(planner)三大功能類別,并重點論證了在三者中受關(guān)注度最低的仿真器,恰恰具備最深遠(yuǎn)的產(chǎn)業(yè)價值與最棘手的技術(shù)難題。

她進(jìn)一步提出,三類模型底層共用同一套世界知識,當(dāng)前最重要的趨勢是三者邊界正不斷消融,最終將走向能夠靈活切換輸出形式的大一統(tǒng)世界基礎(chǔ)模型。

李飛飛發(fā)布《世界模型的功能分類》文章推文(圖源:X)

李飛飛在文中提出了以下幾個核心觀點:

1、世界模型已成為 AI 領(lǐng)域最重要、也最被濫用的術(shù)語之一,各領(lǐng)域所指內(nèi)涵截然不同,亟需精準(zhǔn)定義。

2、世界模型的技術(shù)定義源自強(qiáng)化學(xué)習(xí)的 POMDP 框架,即智能體、動作、環(huán)境狀態(tài)、觀測信息構(gòu)成的交互閉環(huán),各類世界模型本質(zhì)都是這套閉環(huán)的不同實現(xiàn)方向。

3、世界模型可分為三大功能類別:渲染器輸出供人觀看的像素畫面、仿真器輸出貼合客觀規(guī)律的環(huán)境狀態(tài)、規(guī)劃器輸出智能體的動作指令。

4、三類模型底層并不割裂,幾何、物理、動力學(xué)這套描述世界運行邏輯的基礎(chǔ)知識是三者共用的底層原理。

5、渲染器商業(yè)化最成熟但能力有上限,規(guī)劃器前景最受期待但尚處起步階段,仿真器關(guān)注度最低卻是銜接二者的橋梁與核心支柱。

6、仿真賽道集中了 AI 領(lǐng)域的諸多棘手難題,包括三維數(shù)據(jù)稀缺、仿真與現(xiàn)實的域差、生成式仿真的幾何隱患、多物理場仿真的高算力成本等。

7、當(dāng)前最關(guān)鍵的發(fā)展趨勢是三類模型相互融合,技術(shù)演進(jìn)的終極形態(tài)是能根據(jù)下游需求靈活切換輸出形式的大一統(tǒng)世界基礎(chǔ)模型。

8、在同一套模型架構(gòu)中平衡各項需求,是當(dāng)前世界模型領(lǐng)域最核心的攻關(guān)課題。

以下是對李飛飛《世界模型的功能分類》的全文編譯:

一、世界并非由文字構(gòu)筑而成

在此前的文章中,我們提出空間智能是 AI 的下一前沿方向,而世界模型是實現(xiàn)空間智能的必經(jīng)之路。本篇,我與 World Labs 團(tuán)隊將進(jìn)一步深挖:當(dāng)下大量被研發(fā)、冠以 " 世界模型 " 之名的各類產(chǎn)物中,究竟由哪些功能模塊構(gòu)成了世界模型的核心能力,各個模塊又分別承擔(dān)何種作用?

大語言模型讓機(jī)器擁有了出眾的概念理解、詞匯運用與邏輯推理能力,但無論是現(xiàn)實物理世界還是虛擬世界,都依托另一套底層規(guī)律運行。語言模型學(xué)習(xí)文本的統(tǒng)計規(guī)律,世界模型則學(xué)習(xí)時空的統(tǒng)計規(guī)律:光線如何落在物體表面、不在相機(jī)拍攝視角下的花園是什么模樣、物體受外力后如何運動并遵循物理定律。

這也讓 " 世界模型 " 成為當(dāng)下 AI 領(lǐng)域最重要、同時最被濫用的術(shù)語之一。計算機(jī)視覺、機(jī)器人、強(qiáng)化學(xué)習(xí)、生成式 AI 各領(lǐng)域人士都宣稱在研發(fā)世界模型,但各方所指內(nèi)涵截然不同。能生成絢麗卻違反物理規(guī)律的火焰的視頻模型、能即興生成游戲的語言模型、能精準(zhǔn)模擬燃燒過程的物理引擎,如今都被裝進(jìn) " 世界模型 " 這同一個筐里。

古希臘學(xué)者始終無法統(tǒng)一世界的本源究竟是火、水還是不可分割的原子,根源在于 " 世界 " 從來沒有唯一定義,它只是研究者為了推演論證,對其所研究的完整客觀存在的代稱。如今 AI 領(lǐng)域在亟需精準(zhǔn)定義的關(guān)鍵階段,承襲了這一難題。

二、分類體系底層的交互閉環(huán)

想要厘清概念亂象,可以從一張早于所有相關(guān)技術(shù)的經(jīng)典原理圖入手。數(shù)十年來,包括 Sutton 和 Barto 編寫的經(jīng)典教材在內(nèi)的各類強(qiáng)化學(xué)習(xí)教科書,都在用這套圖示描述智能體與環(huán)境的交互邏輯。該框架的標(biāo)準(zhǔn)名稱為部分可觀測馬爾可夫決策過程,即 POMDP,而 " 世界模型 " 最初的定義便誕生于這套理論體系。

智能體可以是人類、機(jī)器人或是軟件系統(tǒng),它會執(zhí)行動作;動作改變環(huán)境狀態(tài)。智能體無法直接觀測完整環(huán)境狀態(tài),只能獲取觀測信息:射入視網(wǎng)膜的光子、傳感器傳回的讀數(shù)、視頻畫面中的像素。新的觀測結(jié)果指導(dǎo)智能體生成新動作,循環(huán)往復(fù)形成閉環(huán)。

" 狀態(tài) " 一詞需要拆解釋義,它在不同學(xué)科中定義不同。此處并非化學(xué)領(lǐng)域固液氣三態(tài)的概念,而是物理與機(jī)器人學(xué)定義的狀態(tài):對某一時刻客觀環(huán)境的完整描述,囊括所有物體的位置、速度與各類屬性。環(huán)境狀態(tài)是客觀世界的底層全貌,理論上信息完整,但身處其中的智能體無法直接全盤獲知。觀測是智能體對客觀世界的局部感知,動作則是智能體基于感知做出的反饋行為。

從智能體、動作、環(huán)境狀態(tài)再到觀測信息、最終回饋智能體的這套閉環(huán),奠定了現(xiàn)代 " 世界模型 " 的技術(shù)定義。事實上," 世界模型 " 這一說法本身歷史更為悠久。它最早可以追溯到 1943 年肯尼斯 · 克雷克(Kenneth Craik)提出人腦依靠構(gòu)建現(xiàn)實的 " 微型模型 " 完成邏輯思考。上世紀(jì) 80 年代末至 90 年代初,克雷克的理念被引入神經(jīng)網(wǎng)絡(luò)研究。這套閉環(huán)同樣能解釋當(dāng)下五花八門的世界模型:如今各類冠以世界模型的產(chǎn)品,本質(zhì)都是這套閉環(huán)的不同實現(xiàn)方向,各自只輸出閉環(huán)中的某一部分信息。

三、世界模型的三大功能分類

第一類世界模型是渲染器。渲染器以像素畫面的形式輸出可供人類觀看的觀測信息,核心評判標(biāo)準(zhǔn)是視覺還原度。能夠依據(jù)文本提示生成電影級航拍畫面的視頻模型屬于渲染器,Google 的 Genie 3、World Labs 自研的 RTFM 這類根據(jù)用戶輸入實時生成畫面的交互式系統(tǒng)同樣歸為此類。這類模型并不具備對三維結(jié)構(gòu)的顯性認(rèn)知,它只生成人類肉眼所見畫面,而非客觀真實結(jié)構(gòu)。航拍鏡頭里的建筑從上空看毫無破綻,但如果駕車穿行城下,建筑結(jié)構(gòu)就會出現(xiàn)崩壞。

第二類是仿真器。仿真器輸出環(huán)境狀態(tài):在幾何、物理、動力學(xué)層面貼合客觀規(guī)律的環(huán)境表征,可供人類與計算機(jī)程序運算、交互。渲染器只需要滿足視覺效果,仿真器則要恪守結(jié)構(gòu)真實性:幾何結(jié)構(gòu)經(jīng)得起校驗、物理規(guī)則符合牛頓定律、物體動力學(xué)表現(xiàn)貼合現(xiàn)實規(guī)律。仿真器同時服務(wù)兩類使用者:建筑師、設(shè)計師、影視與游戲開發(fā)者等從業(yè)者需要遠(yuǎn)超視覺逼真度的精準(zhǔn)環(huán)境;強(qiáng)化學(xué)習(xí)智能體、機(jī)器人控制器、自動駕駛等程序則將仿真環(huán)境當(dāng)作規(guī)模化訓(xùn)練場地,用以測試現(xiàn)實中危險、成本高昂或是無法落地的場景。

第三類是規(guī)劃器。規(guī)劃器輸出動作指令:依托觀測信息與預(yù)設(shè)目標(biāo),給出智能體下一步的行動方案。從邏輯上看,它和渲染器互為逆過程。渲染器輸入動作、輸出觀測畫面;規(guī)劃器輸入觀測信息、輸出動作指令,補(bǔ)齊感知與動作的閉環(huán)鏈路。視覺 - 語言 - 動作(VLA)模型、基于模型的控制系統(tǒng),以及新近興起的世界動作模型(World Action Models)都屬于規(guī)劃器方向,這類系統(tǒng)能夠為非結(jié)構(gòu)化環(huán)境中的機(jī)器人制定行動策略。

當(dāng)下落地量產(chǎn)的絕大多數(shù)世界模型產(chǎn)品都可以歸入這三類,在實際應(yīng)用中這套劃分方式具備實用價值,但三類模型底層并非割裂。幾何、物理、動力學(xué)這套描述客觀世界運行邏輯的基礎(chǔ)知識,是三者共用的底層原理。理論上,能夠從任意視角渲染杯子的模型,也可以仿真杯子被推倒后的狀態(tài)、規(guī)劃機(jī)械手抓取杯子的動作。當(dāng)下前沿研究正不斷打破三類模型的邊界。

World Labs 世界模型三大功能模塊拆解示意圖(圖源:World Labs)

四、仿真為何是核心支柱

在三類模型中,仿真器受到的大眾關(guān)注度最低,卻具備最深遠(yuǎn)的產(chǎn)業(yè)價值,本文將就這種關(guān)注度與重要度失衡的現(xiàn)狀展開論述。

渲染器是商業(yè)化落地最成熟的品類,多款文生圖、文生視頻產(chǎn)品正快速滲透消費級與企業(yè)級市場。谷歌的 Nano Banana 模型將高質(zhì)量圖像生成能力帶給了數(shù)以億計的潛在用戶。無論是技術(shù)本身,還是相應(yīng)的市場需求,都已經(jīng)得到了充分驗證。但渲染器以視覺逼真度為優(yōu)化目標(biāo),不追求物理精準(zhǔn)性,這成為它的能力上限:生成畫面觀感出眾,卻無法被用于建筑設(shè)計、機(jī)器人訓(xùn)練等需要嚴(yán)謹(jǐn)物理邏輯的場景。

規(guī)劃器發(fā)展前景最受期待,但技術(shù)尚處在起步階段,和高速發(fā)展的機(jī)器人學(xué)習(xí)領(lǐng)域深度綁定。近兩年來,機(jī)器人相關(guān)演示視頻效果亮眼,但客觀來看,絕大多數(shù)演示都局限在條件嚴(yán)苛的實驗室環(huán)境中,操作物品種類有限、任務(wù)流程簡短,還無法滿足真實落地所需的環(huán)境復(fù)雜度、場景多變性與長時間穩(wěn)定運行要求。從實驗室演示到能在廚房、倉庫、手術(shù)室穩(wěn)定作業(yè)的商用機(jī)器人,中間仍存在巨大技術(shù)鴻溝。不過資本對規(guī)劃賽道投入巨大,一批資金充裕的創(chuàng)業(yè)公司爭相落地通用規(guī)劃系統(tǒng),頭部基礎(chǔ)設(shè)施廠商也選擇在仿真技術(shù)棧之上搭建規(guī)劃能力。能夠自主規(guī)劃的機(jī)器人才具備實用價值,全行業(yè)都在爭先攻克這項技術(shù)。

仿真技術(shù)是銜接渲染與規(guī)劃的橋梁。如果說語言是世界的抽象概括、像素是世界的視覺投影,那么幾何、物理與動力學(xué)規(guī)律就是世界本身。仿真器立足客觀規(guī)律搭建底層結(jié)構(gòu),渲染所需的外觀畫面、規(guī)劃所需的動作結(jié)果,都能從這套結(jié)構(gòu)中衍生而來。

掌握仿真能力的模型,既可以把對世界的理解轉(zhuǎn)化為可供人類觀看的像素畫面,也能為實體智能體預(yù)判動作結(jié)果,而僅專攻渲染或規(guī)劃其中一項的模型,則無法兼?zhèn)渖鲜鰞身椖芰?。仿真的商業(yè)化市場空間十分龐大,僅英偉達(dá)的 Omniverse,其面向工廠、倉儲、供應(yīng)鏈、數(shù)字孿生的潛在市場規(guī)模就被公司預(yù)估超萬億美元。機(jī)器人訓(xùn)練、自動駕駛測試、建筑可視化、工程研發(fā)、藥物研發(fā)等領(lǐng)域,全都離不開仿真技術(shù)。

AI 領(lǐng)域諸多棘手的待解難題也集中在仿真賽道。標(biāo)注了幾何結(jié)構(gòu)、材質(zhì)屬性、物理參數(shù)的三維數(shù)據(jù)集,體量遠(yuǎn)少于渲染模型訓(xùn)練所用的互聯(lián)網(wǎng)視頻素材。仿真與現(xiàn)實間的域差問題始終難以根除。生成式仿真還新增一項隱患:AI 生成的幾何模型看似正常,實則可能存在面相交、尺寸失真問題,進(jìn)而導(dǎo)致物理運算結(jié)果違背常理。能夠同時實現(xiàn)剛體、柔體、流體、織物交互的大規(guī)模多物理場仿真,算力成本遠(yuǎn)高于單一物理場景仿真。

World Labs 推出的 Marble 是我們布局仿真領(lǐng)域的首款產(chǎn)品。該產(chǎn)品接收文本、圖片、視頻、空間草圖等多模態(tài)提示詞,生成可交互探索的三維環(huán)境,同時輸出用于視覺瀏覽的高斯?jié)姙R數(shù)據(jù)、可供物理引擎運算的碰撞網(wǎng)格。不過隨著渲染、仿真、規(guī)劃的邊界不斷消融,Marble 只是全行業(yè)技術(shù)演進(jìn)長周期的開端。

五、邊界消融的現(xiàn)狀與未來發(fā)展方向

行業(yè)的技術(shù)變革還在持續(xù)推進(jìn),當(dāng)下最關(guān)鍵的發(fā)展趨勢是三類模型正在相互融合。業(yè)界逐漸達(dá)成共識:實現(xiàn)環(huán)境渲染、物理仿真、動作規(guī)劃所依托的底層世界知識高度同源。沿用前文杯子的例子:真正掌握杯子在桌面的幾何形態(tài)、材質(zhì)、受力規(guī)律的模型,既能從任意角度渲染杯子畫面,也能仿真杯子被碰倒的全過程,還能規(guī)劃機(jī)械手抓取動作。三類應(yīng)用只是同一套底層世界認(rèn)知的三種落地形式。

大一統(tǒng)世界模型架構(gòu)圖(圖源:World Labs)

舉個例子,多家機(jī)器人實驗室近期已有越來越多研究證實:從理論層面,預(yù)訓(xùn)練視頻渲染模型可作為環(huán)境與動作聯(lián)合預(yù)測的底層基座,用單一模型預(yù)判環(huán)境變化與對應(yīng)動作,打通渲染器和規(guī)劃器的技術(shù)壁壘。World Labs 的 Marble 已實現(xiàn)單模型同時輸出高斯?jié)姙R畫面與碰撞網(wǎng)格,打破渲染器和仿真器的界限。全品類產(chǎn)品都在從被動生成輸出轉(zhuǎn)向交互式系統(tǒng):渲染器開始支持根據(jù)動作指令生成畫面,仿真器產(chǎn)出的環(huán)境可調(diào)控、可修改,規(guī)劃器也從被動應(yīng)激式?jīng)Q策升級為自主推演式?jīng)Q策。

技術(shù)演進(jìn)的終極形態(tài)是大一統(tǒng)世界基礎(chǔ)模型:單一基座模型既能生成照片級渲染畫面、輸出符合物理規(guī)律的環(huán)境結(jié)構(gòu),又能生成動作序列,可根據(jù)下游需求靈活切換輸出形式。不過落地之路仍有重重挑戰(zhàn):各類模型數(shù)據(jù)儲備不均衡,渲染模型坐擁海量互聯(lián)網(wǎng)視頻素材,仿真與規(guī)劃模型卻緊缺三維資源與機(jī)器人實操數(shù)據(jù);優(yōu)先優(yōu)化視覺效果往往會損耗機(jī)器人、高精度仿真所需的物理精度。在同一套模型架構(gòu)中平衡各項需求,是當(dāng)前世界模型領(lǐng)域最核心的攻關(guān)課題,這也是 World Labs 迭代升級 Marble 的核心目標(biāo)。

但行業(yè)發(fā)展方向已然明晰。從上世紀(jì) 80 年代末延續(xù)至今的行業(yè)核心猜想,正驅(qū)動著新一代科研攻關(guān):只要構(gòu)建足夠完備的世界模型,智能體就能夠感知、搭建環(huán)境并在其中自主行動。這份猜想的落地底氣源自三大技術(shù)路線的融合趨勢:原本各自獨立研發(fā)、且均已催生千億級產(chǎn)業(yè)的渲染、仿真、規(guī)劃賽道,正逐步融為一體。隨著三者邊界徹底消融,它們將重塑更深層的產(chǎn)業(yè)格局:機(jī)器智能與客觀物理世界的交互關(guān)系,推動空間智能完成漫長的產(chǎn)業(yè)進(jìn)化。

語言讓機(jī)器擁有了描述世界的能力,而世界模型終將讓機(jī)器真正理解、構(gòu)想客觀世界,并與之推演、交互。

來源:

https://x.com/drfeifei/status/2062247238143996275

相關(guān)標(biāo)簽

覺得文章不錯,微信掃描分享好友

掃碼分享

企業(yè)資訊

查看更多內(nèi)容