MK电竞,电竞竞猜官网,雷火体育

智東西

編譯 | 陳佳

編輯 | 漠影

智東西 6 月 4 日消息，今日，斯坦福大學(xué)教授、空間智能創(chuàng)業(yè)公司 World Labs 聯(lián)合創(chuàng)始人兼 CEO 李飛飛（Fei-Fei Li）與團(tuán)隊發(fā)布新文章《世界模型的功能分類》，系統(tǒng)拆解了當(dāng)下被廣泛使用卻釋義混亂的 " 世界模型 "。

文章指出，計算機(jī)視覺、機(jī)器人、強(qiáng)化學(xué)習(xí)和生成式 AI 各領(lǐng)域的人士都宣稱其在研發(fā)世界模型，但各方所指內(nèi)涵截然不同。李飛飛試圖從強(qiáng)化學(xué)習(xí)經(jīng)典的 POMDP（部分可觀測馬爾可夫決策過程）框架出發(fā)，為這一概念建立清晰的功能分類體系。

李飛飛將世界模型歸納為渲染器（renderer）、仿真器（simulator）、規(guī)劃器（planner）三大功能類別，并重點論證了在三者中受關(guān)注度最低的仿真器，恰恰具備最深遠(yuǎn)的產(chǎn)業(yè)價值與最棘手的技術(shù)難題。

她進(jìn)一步提出，三類模型底層共用同一套世界知識，當(dāng)前最重要的趨勢是三者邊界正不斷消融，最終將走向能夠靈活切換輸出形式的大一統(tǒng)世界基礎(chǔ)模型。

李飛飛發(fā)布《世界模型的功能分類》文章推文（圖源：X）

李飛飛在文中提出了以下幾個核心觀點：

1、世界模型已成為 AI 領(lǐng)域最重要、也最被濫用的術(shù)語之一，各領(lǐng)域所指內(nèi)涵截然不同，亟需精準(zhǔn)定義。

2、世界模型的技術(shù)定義源自強(qiáng)化學(xué)習(xí)的 POMDP 框架，即智能體、動作、環(huán)境狀態(tài)、觀測信息構(gòu)成的交互閉環(huán)，各類世界模型本質(zhì)都是這套閉環(huán)的不同實現(xiàn)方向。

3、世界模型可分為三大功能類別：渲染器輸出供人觀看的像素畫面、仿真器輸出貼合客觀規(guī)律的環(huán)境狀態(tài)、規(guī)劃器輸出智能體的動作指令。

4、三類模型底層并不割裂，幾何、物理、動力學(xué)這套描述世界運行邏輯的基礎(chǔ)知識是三者共用的底層原理。

5、渲染器商業(yè)化最成熟但能力有上限，規(guī)劃器前景最受期待但尚處起步階段，仿真器關(guān)注度最低卻是銜接二者的橋梁與核心支柱。

6、仿真賽道集中了 AI 領(lǐng)域的諸多棘手難題，包括三維數(shù)據(jù)稀缺、仿真與現(xiàn)實的域差、生成式仿真的幾何隱患、多物理場仿真的高算力成本等。

7、當(dāng)前最關(guān)鍵的發(fā)展趨勢是三類模型相互融合，技術(shù)演進(jìn)的終極形態(tài)是能根據(jù)下游需求靈活切換輸出形式的大一統(tǒng)世界基礎(chǔ)模型。

8、在同一套模型架構(gòu)中平衡各項需求，是當(dāng)前世界模型領(lǐng)域最核心的攻關(guān)課題。

以下是對李飛飛《世界模型的功能分類》的全文編譯：

一、世界并非由文字構(gòu)筑而成

在此前的文章中，我們提出空間智能是 AI 的下一前沿方向，而世界模型是實現(xiàn)空間智能的必經(jīng)之路。本篇，我與 World Labs 團(tuán)隊將進(jìn)一步深挖：當(dāng)下大量被研發(fā)、冠以 " 世界模型 " 之名的各類產(chǎn)物中，究竟由哪些功能模塊構(gòu)成了世界模型的核心能力，各個模塊又分別承擔(dān)何種作用？

大語言模型讓機(jī)器擁有了出眾的概念理解、詞匯運用與邏輯推理能力，但無論是現(xiàn)實物理世界還是虛擬世界，都依托另一套底層規(guī)律運行。語言模型學(xué)習(xí)文本的統(tǒng)計規(guī)律，世界模型則學(xué)習(xí)時空的統(tǒng)計規(guī)律：光線如何落在物體表面、不在相機(jī)拍攝視角下的花園是什么模樣、物體受外力后如何運動并遵循物理定律。

這也讓 " 世界模型 " 成為當(dāng)下 AI 領(lǐng)域最重要、同時最被濫用的術(shù)語之一。計算機(jī)視覺、機(jī)器人、強(qiáng)化學(xué)習(xí)、生成式 AI 各領(lǐng)域人士都宣稱在研發(fā)世界模型，但各方所指內(nèi)涵截然不同。能生成絢麗卻違反物理規(guī)律的火焰的視頻模型、能即興生成游戲的語言模型、能精準(zhǔn)模擬燃燒過程的物理引擎，如今都被裝進(jìn) " 世界模型 " 這同一個筐里。

古希臘學(xué)者始終無法統(tǒng)一世界的本源究竟是火、水還是不可分割的原子，根源在于 " 世界 " 從來沒有唯一定義，它只是研究者為了推演論證，對其所研究的完整客觀存在的代稱。如今 AI 領(lǐng)域在亟需精準(zhǔn)定義的關(guān)鍵階段，承襲了這一難題。

二、分類體系底層的交互閉環(huán)

想要厘清概念亂象，可以從一張早于所有相關(guān)技術(shù)的經(jīng)典原理圖入手。數(shù)十年來，包括 Sutton 和 Barto 編寫的經(jīng)典教材在內(nèi)的各類強(qiáng)化學(xué)習(xí)教科書，都在用這套圖示描述智能體與環(huán)境的交互邏輯。該框架的標(biāo)準(zhǔn)名稱為部分可觀測馬爾可夫決策過程，即 POMDP，而 " 世界模型 " 最初的定義便誕生于這套理論體系。

智能體可以是人類、機(jī)器人或是軟件系統(tǒng)，它會執(zhí)行動作；動作改變環(huán)境狀態(tài)。智能體無法直接觀測完整環(huán)境狀態(tài)，只能獲取觀測信息：射入視網(wǎng)膜的光子、傳感器傳回的讀數(shù)、視頻畫面中的像素。新的觀測結(jié)果指導(dǎo)智能體生成新動作，循環(huán)往復(fù)形成閉環(huán)。

" 狀態(tài) " 一詞需要拆解釋義，它在不同學(xué)科中定義不同。此處并非化學(xué)領(lǐng)域固液氣三態(tài)的概念，而是物理與機(jī)器人學(xué)定義的狀態(tài)：對某一時刻客觀環(huán)境的完整描述，囊括所有物體的位置、速度與各類屬性。環(huán)境狀態(tài)是客觀世界的底層全貌，理論上信息完整，但身處其中的智能體無法直接全盤獲知。觀測是智能體對客觀世界的局部感知，動作則是智能體基于感知做出的反饋行為。

從智能體、動作、環(huán)境狀態(tài)再到觀測信息、最終回饋智能體的這套閉環(huán)，奠定了現(xiàn)代 " 世界模型 " 的技術(shù)定義。事實上，" 世界模型 " 這一說法本身歷史更為悠久。它最早可以追溯到 1943 年肯尼斯 · 克雷克（Kenneth Craik）提出人腦依靠構(gòu)建現(xiàn)實的 " 微型模型 " 完成邏輯思考。上世紀(jì) 80 年代末至 90 年代初，克雷克的理念被引入神經(jīng)網(wǎng)絡(luò)研究。這套閉環(huán)同樣能解釋當(dāng)下五花八門的世界模型：如今各類冠以世界模型的產(chǎn)品，本質(zhì)都是這套閉環(huán)的不同實現(xiàn)方向，各自只輸出閉環(huán)中的某一部分信息。

三、世界模型的三大功能分類

第一類世界模型是渲染器。渲染器以像素畫面的形式輸出可供人類觀看的觀測信息，核心評判標(biāo)準(zhǔn)是視覺還原度。能夠依據(jù)文本提示生成電影級航拍畫面的視頻模型屬于渲染器，Google 的 Genie 3、World Labs 自研的 RTFM 這類根據(jù)用戶輸入實時生成畫面的交互式系統(tǒng)同樣歸為此類。這類模型并不具備對三維結(jié)構(gòu)的顯性認(rèn)知，它只生成人類肉眼所見畫面，而非客觀真實結(jié)構(gòu)。航拍鏡頭里的建筑從上空看毫無破綻，但如果駕車穿行城下，建筑結(jié)構(gòu)就會出現(xiàn)崩壞。

第二類是仿真器。仿真器輸出環(huán)境狀態(tài)：在幾何、物理、動力學(xué)層面貼合客觀規(guī)律的環(huán)境表征，可供人類與計算機(jī)程序運算、交互。渲染器只需要滿足視覺效果，仿真器則要恪守結(jié)構(gòu)真實性：幾何結(jié)構(gòu)經(jīng)得起校驗、物理規(guī)則符合牛頓定律、物體動力學(xué)表現(xiàn)貼合現(xiàn)實規(guī)律。仿真器同時服務(wù)兩類使用者：建筑師、設(shè)計師、影視與游戲開發(fā)者等從業(yè)者需要遠(yuǎn)超視覺逼真度的精準(zhǔn)環(huán)境；強(qiáng)化學(xué)習(xí)智能體、機(jī)器人控制器、自動駕駛等程序則將仿真環(huán)境當(dāng)作規(guī)模化訓(xùn)練場地，用以測試現(xiàn)實中危險、成本高昂或是無法落地的場景。

第三類是規(guī)劃器。規(guī)劃器輸出動作指令：依托觀測信息與預(yù)設(shè)目標(biāo)，給出智能體下一步的行動方案。從邏輯上看，它和渲染器互為逆過程。渲染器輸入動作、輸出觀測畫面；規(guī)劃器輸入觀測信息、輸出動作指令，補(bǔ)齊感知與動作的閉環(huán)鏈路。視覺 - 語言 - 動作（VLA）模型、基于模型的控制系統(tǒng)，以及新近興起的世界動作模型（World Action Models）都屬于規(guī)劃器方向，這類系統(tǒng)能夠為非結(jié)構(gòu)化環(huán)境中的機(jī)器人制定行動策略。

當(dāng)下落地量產(chǎn)的絕大多數(shù)世界模型產(chǎn)品都可以歸入這三類，在實際應(yīng)用中這套劃分方式具備實用價值，但三類模型底層并非割裂。幾何、物理、動力學(xué)這套描述客觀世界運行邏輯的基礎(chǔ)知識，是三者共用的底層原理。理論上，能夠從任意視角渲染杯子的模型，也可以仿真杯子被推倒后的狀態(tài)、規(guī)劃機(jī)械手抓取杯子的動作。當(dāng)下前沿研究正不斷打破三類模型的邊界。

World Labs 世界模型三大功能模塊拆解示意圖（圖源：World Labs）

四、仿真為何是核心支柱

在三類模型中，仿真器受到的大眾關(guān)注度最低，卻具備最深遠(yuǎn)的產(chǎn)業(yè)價值，本文將就這種關(guān)注度與重要度失衡的現(xiàn)狀展開論述。

渲染器是商業(yè)化落地最成熟的品類，多款文生圖、文生視頻產(chǎn)品正快速滲透消費級與企業(yè)級市場。谷歌的 Nano Banana 模型將高質(zhì)量圖像生成能力帶給了數(shù)以億計的潛在用戶。無論是技術(shù)本身，還是相應(yīng)的市場需求，都已經(jīng)得到了充分驗證。但渲染器以視覺逼真度為優(yōu)化目標(biāo)，不追求物理精準(zhǔn)性，這成為它的能力上限：生成畫面觀感出眾，卻無法被用于建筑設(shè)計、機(jī)器人訓(xùn)練等需要嚴(yán)謹(jǐn)物理邏輯的場景。

規(guī)劃器發(fā)展前景最受期待，但技術(shù)尚處在起步階段，和高速發(fā)展的機(jī)器人學(xué)習(xí)領(lǐng)域深度綁定。近兩年來，機(jī)器人相關(guān)演示視頻效果亮眼，但客觀來看，絕大多數(shù)演示都局限在條件嚴(yán)苛的實驗室環(huán)境中，操作物品種類有限、任務(wù)流程簡短，還無法滿足真實落地所需的環(huán)境復(fù)雜度、場景多變性與長時間穩(wěn)定運行要求。從實驗室演示到能在廚房、倉庫、手術(shù)室穩(wěn)定作業(yè)的商用機(jī)器人，中間仍存在巨大技術(shù)鴻溝。不過資本對規(guī)劃賽道投入巨大，一批資金充裕的創(chuàng)業(yè)公司爭相落地通用規(guī)劃系統(tǒng)，頭部基礎(chǔ)設(shè)施廠商也選擇在仿真技術(shù)棧之上搭建規(guī)劃能力。能夠自主規(guī)劃的機(jī)器人才具備實用價值，全行業(yè)都在爭先攻克這項技術(shù)。

仿真技術(shù)是銜接渲染與規(guī)劃的橋梁。如果說語言是世界的抽象概括、像素是世界的視覺投影，那么幾何、物理與動力學(xué)規(guī)律就是世界本身。仿真器立足客觀規(guī)律搭建底層結(jié)構(gòu)，渲染所需的外觀畫面、規(guī)劃所需的動作結(jié)果，都能從這套結(jié)構(gòu)中衍生而來。

掌握仿真能力的模型，既可以把對世界的理解轉(zhuǎn)化為可供人類觀看的像素畫面，也能為實體智能體預(yù)判動作結(jié)果，而僅專攻渲染或規(guī)劃其中一項的模型，則無法兼?zhèn)渖鲜鰞身椖芰?。仿真的商業(yè)化市場空間十分龐大，僅英偉達(dá)的 Omniverse，其面向工廠、倉儲、供應(yīng)鏈、數(shù)字孿生的潛在市場規(guī)模就被公司預(yù)估超萬億美元。機(jī)器人訓(xùn)練、自動駕駛測試、建筑可視化、工程研發(fā)、藥物研發(fā)等領(lǐng)域，全都離不開仿真技術(shù)。

AI 領(lǐng)域諸多棘手的待解難題也集中在仿真賽道。標(biāo)注了幾何結(jié)構(gòu)、材質(zhì)屬性、物理參數(shù)的三維數(shù)據(jù)集，體量遠(yuǎn)少于渲染模型訓(xùn)練所用的互聯(lián)網(wǎng)視頻素材。仿真與現(xiàn)實間的域差問題始終難以根除。生成式仿真還新增一項隱患：AI 生成的幾何模型看似正常，實則可能存在面相交、尺寸失真問題，進(jìn)而導(dǎo)致物理運算結(jié)果違背常理。能夠同時實現(xiàn)剛體、柔體、流體、織物交互的大規(guī)模多物理場仿真，算力成本遠(yuǎn)高于單一物理場景仿真。

World Labs 推出的 Marble 是我們布局仿真領(lǐng)域的首款產(chǎn)品。該產(chǎn)品接收文本、圖片、視頻、空間草圖等多模態(tài)提示詞，生成可交互探索的三維環(huán)境，同時輸出用于視覺瀏覽的高斯?jié)姙R數(shù)據(jù)、可供物理引擎運算的碰撞網(wǎng)格。不過隨著渲染、仿真、規(guī)劃的邊界不斷消融，Marble 只是全行業(yè)技術(shù)演進(jìn)長周期的開端。

五、邊界消融的現(xiàn)狀與未來發(fā)展方向

行業(yè)的技術(shù)變革還在持續(xù)推進(jìn)，當(dāng)下最關(guān)鍵的發(fā)展趨勢是三類模型正在相互融合。業(yè)界逐漸達(dá)成共識：實現(xiàn)環(huán)境渲染、物理仿真、動作規(guī)劃所依托的底層世界知識高度同源。沿用前文杯子的例子：真正掌握杯子在桌面的幾何形態(tài)、材質(zhì)、受力規(guī)律的模型，既能從任意角度渲染杯子畫面，也能仿真杯子被碰倒的全過程，還能規(guī)劃機(jī)械手抓取動作。三類應(yīng)用只是同一套底層世界認(rèn)知的三種落地形式。

大一統(tǒng)世界模型架構(gòu)圖（圖源：World Labs）

舉個例子，多家機(jī)器人實驗室近期已有越來越多研究證實：從理論層面，預(yù)訓(xùn)練視頻渲染模型可作為環(huán)境與動作聯(lián)合預(yù)測的底層基座，用單一模型預(yù)判環(huán)境變化與對應(yīng)動作，打通渲染器和規(guī)劃器的技術(shù)壁壘。World Labs 的 Marble 已實現(xiàn)單模型同時輸出高斯?jié)姙R畫面與碰撞網(wǎng)格，打破渲染器和仿真器的界限。全品類產(chǎn)品都在從被動生成輸出轉(zhuǎn)向交互式系統(tǒng)：渲染器開始支持根據(jù)動作指令生成畫面，仿真器產(chǎn)出的環(huán)境可調(diào)控、可修改，規(guī)劃器也從被動應(yīng)激式?jīng)Q策升級為自主推演式?jīng)Q策。

技術(shù)演進(jìn)的終極形態(tài)是大一統(tǒng)世界基礎(chǔ)模型：單一基座模型既能生成照片級渲染畫面、輸出符合物理規(guī)律的環(huán)境結(jié)構(gòu)，又能生成動作序列，可根據(jù)下游需求靈活切換輸出形式。不過落地之路仍有重重挑戰(zhàn)：各類模型數(shù)據(jù)儲備不均衡，渲染模型坐擁海量互聯(lián)網(wǎng)視頻素材，仿真與規(guī)劃模型卻緊缺三維資源與機(jī)器人實操數(shù)據(jù)；優(yōu)先優(yōu)化視覺效果往往會損耗機(jī)器人、高精度仿真所需的物理精度。在同一套模型架構(gòu)中平衡各項需求，是當(dāng)前世界模型領(lǐng)域最核心的攻關(guān)課題，這也是 World Labs 迭代升級 Marble 的核心目標(biāo)。

但行業(yè)發(fā)展方向已然明晰。從上世紀(jì) 80 年代末延續(xù)至今的行業(yè)核心猜想，正驅(qū)動著新一代科研攻關(guān)：只要構(gòu)建足夠完備的世界模型，智能體就能夠感知、搭建環(huán)境并在其中自主行動。這份猜想的落地底氣源自三大技術(shù)路線的融合趨勢：原本各自獨立研發(fā)、且均已催生千億級產(chǎn)業(yè)的渲染、仿真、規(guī)劃賽道，正逐步融為一體。隨著三者邊界徹底消融，它們將重塑更深層的產(chǎn)業(yè)格局：機(jī)器智能與客觀物理世界的交互關(guān)系，推動空間智能完成漫長的產(chǎn)業(yè)進(jìn)化。

語言讓機(jī)器擁有了描述世界的能力，而世界模型終將讓機(jī)器真正理解、構(gòu)想客觀世界，并與之推演、交互。

來源：

https://x.com/drfeifei/status/2062247238143996275

电竞比分网-中国电竞赛事及体育赛事平台

宙世代元宇宙

元宇宙黨建解決方案

元宇宙文旅解決方案

元宇宙展廳解決方案

元宇宙行業(yè)峰會解決方案

元宇宙營銷解決方案

元宇宙會展解決方案

元宇宙演藝節(jié)目解決方案

元宇宙博物館解決方案

元宇宙圖書館解決方案

元宇宙校園解決方案

元宇宙企業(yè)展廳解決方案

元宇宙藝術(shù)展解決方案

元宇宙電商解決方案

融媒體解決方案

ZAKER智慧云

媒體解決方案

黨建解決方案

公檢法解決方案

智慧交通解決方案

高校解決方案

AI視頻

AI視頻剪輯

視頻定制服務(wù)

AI智能客服

我的訂閱

李飛飛看不下去了！親自下場“辟謠”世界模型

宙世代

一起剪

相關(guān)閱讀

鴻蒙6殺入大眾產(chǎn)品線，手機(jī)行業(yè)的「參數(shù)內(nèi)卷」該到頭了

最新評論

智東西

熱門推薦

企業(yè)資訊