
作者 | ZeR0
編輯 | 漠影
智東西 6 月 3 日報道,在 Computex 2026 臺北國際電腦展上,英偉達發(fā)布物理 AI 領域的多項進展,包括開源世界基礎模型 Cosmos 3、面向物理 AI 的智能體工具和 Skills、自動駕駛推理模型 Alpamayo 2 Super、閉環(huán)強化學習框架 AlpaGym、動作條件世界模型 OmniDreams 等模型及工具,并發(fā)布工廠運營藍圖、端到端人形機器人工作流、開放參考人形機器人設計,全方位助力企業(yè)及研究機構將 AI 引入支撐世界運轉(zhuǎn)的物理系統(tǒng)中。
英偉達還分享了許多合作伙伴的實踐案例。比如 Cadence 構建了用于芯片設計驗證的超級智能體,臺積電將英偉達技術引入晶圓制造多個關鍵環(huán)節(jié),富士康與和碩率先構建工廠經(jīng)理智能體,多家名校及頂尖研究所將采用基于宇樹 H2 Plus 的開放參考人形機器人設計來開展研究。
一、Cosmos 3:開源全模態(tài)基礎模型,與 Omniverse 協(xié)同演進
英偉達發(fā)布了一款面向物理 AI 的開源世界基礎模型 Cosmos 3。
Cosmos 3 是一個完整的全模態(tài)(Omni)模型,基于混合 Transformer 架構,指令、觀測數(shù)據(jù)與動作共同流入自回歸 Transformer,該模型負責推理、規(guī)劃,并指導擴散 Transformer 生成后續(xù)內(nèi)容。
全模態(tài)模型是指能夠處理視頻、傳感器輸入、文本、聲音、動作等多種模態(tài)的模型,這些模態(tài)均可作為模型的輸入和輸出,類似于人類和其他生物的認知方式,從多種感官接收輸入,并能輸出多種類型的結(jié)果。
該模型的核心目標是為自主系統(tǒng)構建世界模型,既可生成策略訓練數(shù)據(jù),也可評估策略,乃至直接作為策略本體。

作為世界推理器,即視覺語言模型(VLM),Cosmos 能夠理解視頻與文本中的場景并標記關鍵信息或做出決策。
作為世界模型,Cosmos 可生成物理精確的合成訓練數(shù)據(jù)。
作為仿真器,Cosmos 在閉環(huán)中測試機器人策略,展示動作結(jié)果并預測后續(xù)狀態(tài)。
作為世界動作模型,Cosmos 可針對不同機器人形態(tài)進行后訓練,并直接生成動作指令。
基于 Cosmos 3,你可以開發(fā)自己的模型,比如微調(diào)出自己的 GR00T 或者其他想要的模型。
隨著推理速度持續(xù)提升,Cosmos 3 將覆蓋從離線數(shù)據(jù)生成、策略評估到邊緣端實時部署的全鏈路應用場景。
對于小尺度的機器人應用,比如電子元器件組裝,仿真器有兩種類型:一是以 Omniverse 為代表的傳統(tǒng)物理仿真器,基于物理規(guī)則建模;二是像 Cosmos 這樣通過預訓練學習物理動力學的世界模型。
目前對于精細化靈巧操作所需的物理精度,現(xiàn)階段世界模型尚難完全滿足,原因在于相關預訓練數(shù)據(jù)不足,缺乏充分標注,且未能覆蓋所需技能與交互類型的全面域。
因此,Omniverse 和 Cosmos 需要協(xié)同演進:Omniverse 提供物理基礎,并生成現(xiàn)實世界數(shù)據(jù)難以獲取的仿真場景,反過來供給 Cosmos 訓練;隨著時間推移,Cosmos 將積累所需的物理動力學知識。
Agile Robots、Black Forest Labs、Generalist、Ltx、Runway、Skild AI 等全球頂尖 AI 實驗室正加入 Cosmos 聯(lián)盟(Cosmos Coalition),共同推動下一代模型的研發(fā)。

智能體需要模型、Harness、工具、Skills 和運行時。英偉達的物理 AI 平臺 Omniverse、Metropolis、Drive、Alpamayo、Isaac 和 Cosmos 全面具備智能體就緒能力。
Jetson 平臺也已實現(xiàn)智能體就緒:開發(fā)者可通過一條命令部署 NemoClaw,通過 Jetson AI Lab 運行最新開源模型,并使用新的 Jetson Linux 定制、內(nèi)存優(yōu)化和模型基準測試 Skills 工具。人人都可以成為 Jetson 開發(fā)者,將自己的智能體部署至邊緣端。
英偉達在 GitHub 上開源了數(shù)十種新 Skills 和工具,幫助開發(fā)者利用編程智能體充分發(fā)揮 CUDA-X 加速數(shù)據(jù)生成、仿真和訓練基礎設施庫的能力。

英偉達正在協(xié)助 Cadence、達索系統(tǒng)、西門子、新思科技等企業(yè),基于英偉達 NemoClaw 平臺構建安全、自主的工程師智能體。
例如,Cadence 正在構建用于芯片設計的超級智能體,可自動化 RTL 驗證循環(huán),實現(xiàn) 40 倍的速度提升,將原本數(shù)周的工作壓縮至數(shù)小時。英偉達芯片設計團隊將大量引入此類工程師智能體。

全球最大晶圓代工廠臺積電不僅是英偉達近三十年的重要合作伙伴,還是英偉達的客戶。
臺積電通過在計算光刻、模擬仿真、工藝控制、檢測、晶圓廠運營優(yōu)化等環(huán)節(jié)運用英偉達的加速計算和 AI 技術,來優(yōu)化自身技術和制造能力。
比如,在芯片設計領域,用于光刻的 GPU 加速庫 cuLitho 將計算資源從逾 40000 個 CPU 壓縮至僅需 350 塊 Blackwell GPU,成本和周期時間削減近一半。
在材料科學領域,GPU 加速的電子結(jié)構模擬庫 cuEST 平均可將半導體材料設計的化學模擬速度提升 50 倍,使新材料的發(fā)現(xiàn)從數(shù)天縮短至數(shù)小時。
在晶圓廠,cuML 機器學習庫使得臺積電能夠提升算法運行速度,顯著降低工藝偏差。
臺積電正使用英偉達 Metropolis 平臺和 TAO 工具包將 AI 模型引入缺陷檢測環(huán)節(jié),通過運用視覺 AI 技術,提高納米級缺陷的檢測能力。
此外,臺積電正探索 NVIDIA Omniverse 庫構建虛擬晶圓廠環(huán)境,提高規(guī)劃效率。
四、打造 "AI 工廠經(jīng)理 ",頂層智能體統(tǒng)管工廠里的各種智能體
在工廠內(nèi)部,物理 AI 智能體已成為新一代運營經(jīng)理。
大多數(shù)工廠仍在運行孤立的系統(tǒng),停機會導致制造商每年損失約 1.5 萬億美元。
英偉達工廠運營藍圖(Factory Operations Blueprint,F(xiàn)OX)是一個構建和部署工廠經(jīng)理智能體的參考設計。
這些智能體連接孤立的工業(yè)系統(tǒng),并協(xié)調(diào)質(zhì)量檢測、流程管理和物料搬運等專項智能體團隊。
它是一個 " 智能體的智能體 " 架構,即頂層智能體統(tǒng)一管理工廠內(nèi)運行的各類子智能體,涵蓋質(zhì)量檢測、流程合規(guī)驗證、工人安全等場景。
以設備管理為例,傳統(tǒng)方式下,多個子智能體監(jiān)控設備告警,但無法進行根本原因分析。工廠經(jīng)理智能體則可整合多源數(shù)據(jù)開展根因分析、聯(lián)動系統(tǒng)加速告警響應、查詢數(shù)據(jù)庫調(diào)取操作規(guī)程并制定行動方案,將原本孤立、低效的流程自動化串聯(lián)。
富士康與和碩是首批構建 FOX 智能體的企業(yè),F(xiàn)OX 幫助它們將問題解決速度提升 70%、設備正常運行時間提升 30%。
五、開源自動駕駛推理模型、自動駕駛策略訓練框架
機器人時代已經(jīng)到來。自動駕駛汽車是全球首個實現(xiàn)量產(chǎn)和大規(guī)模落地的機器人形態(tài),英偉達在這一領域已深耕超過十年。
NVIDIA DRIVE 是面向全類別自動駕駛汽車端到端平臺,包含用于推理的 Alpamayo 開放模型、用于仿真和數(shù)據(jù)生成的 Omniverse、Newton 和 Cosmos,以及用于車載計算的 Drive AGX。
其核心是 DRIVE Hyperion,一個基于 NVIDIA Halos 安全系統(tǒng)構建的 L4 級自動駕駛出租車模塊化硬件平臺。
Hyperion 平臺在架構層面已具備 L4 級能力,冗余電源、冗余轉(zhuǎn)向、冗余計算、滿足 L4 要求的傳感器配置均已到位。
在 Hyperion 平臺層面,英偉達通過架構設計實現(xiàn)冗余:如果某臺計算機故障,備用計算機會接管;傳感器采用多元冗余設計,攝像頭失效時有雷達和激光雷達作為備份,且備用 ECU 擁有完整的 360° 視野,確保車輛始終能將乘客安全送達。
在軟件層面,英偉達采用混合技術?!?Alpamayo 模型與經(jīng)典 Halos 技術棧并行運行,形成多樣性冗余。英偉達也為希望自建技術棧的客戶提供 Halos 安全分析服務。

新推出的 Alpamayo 2 Super 是一款開放自動駕駛推理模型,擁有 320 億個參數(shù),架構更靈活,支持多種攝像頭配置(雙攝、四攝、六攝),也可接入導航輸入,覆蓋推理、規(guī)劃、標注和評估。

英偉達還推出一個用于自動駕駛汽車策略訓練的開源閉環(huán)強化學習框架 AlpaGym,模型在其中以動作影響后續(xù)狀態(tài)的方式進行閉環(huán)仿真訓練。
Alpamayo 2 Super 與 AlpaGym 共同為開發(fā)者提供邁向 L4 級自動駕駛的開放基礎。
OmniDreams 是一個基于 Cosmos 構建的、用于閉環(huán)自動駕駛場景生成的動作條件世界模型,可大規(guī)模生成稀有、逼真的長尾駕駛場景。

NVIDIA Isaac GR00T 是一個開放式機器人開發(fā)平臺,提供從機器人計算到開放模型、仿真器和數(shù)據(jù)管道的全棧支持。
當前人形機器人開發(fā)流程極為碎片化。對此,英偉達推出一套全新 NVIDIA Isaac GR00T 端到端人形機器人工作流,讓團隊可在數(shù)小時內(nèi)完成原本需要數(shù)周的部署。

每個模塊均可獨立使用,可以采用英偉達技術棧,也可自帶組件。
在人形機器人底層軟件和固件層面,英偉達正與 OEM 生態(tài)伙伴合作,確保整個系統(tǒng)從上至下完成驗證,并符合嚴格的網(wǎng)絡安全和網(wǎng)絡安全標準。
具體措施包括加密簽名驅(qū)動、明確的版本回滾機制、氣隙隔離設計等,確保設備上的數(shù)據(jù)和遙測數(shù)據(jù)在未經(jīng)開發(fā)者許可的情況下不會離開設備。這與自動駕駛汽車所適用的安全標準體系一致。
當前缺少的是機器人本體本身。
能夠勝任真實工作的前沿人形機器人,幾乎無法觸達大多數(shù)研究者,要么成本過高,僅頂尖 AI 實驗室才能負擔最先進的硬件,要么硬件本身并非為工業(yè)規(guī)模任務而設計。
英偉達推出了首個基于英偉達 Jetson Thor 和 Isaac GR00T 平臺的 NVIDIA Isaac GR00T 開放參考人形機器人設計。
該參考設計集成了宇樹 H2 Plus 人形機器人、Sharpa Wave 五指靈巧手、英偉達 Jetson Thor 處理器以及 Isaac GR00T 軟件和工作流程,并預裝了英偉達 GR00T 1.7 人形機器人模型,開箱即用。
機器人身高約 1.83 米,體重約 68 公斤,專為工業(yè)任務設計,內(nèi)置 RGB 頭部和腕部傳感器,具備人類尺度的運動和操作能力,支持高精度感知與精細化靈巧操作,機械臂峰值有效載荷為 15 公斤。

宇樹 H2 人形機器人底盤:身高近 6 英尺,重 150 磅,全身有 31 個自由度,用于人體尺度測試。
雙 Sharpa Wave 觸覺五指靈巧手:可實現(xiàn) 22 個自由度的靈巧操作,使機器人在身體和手部達到 75 個自由度。
多視角傳感器:包括一個頭戴式立體攝像頭(水平 140 度,垂直 102 度),用于近距離操作的腕部攝像頭,以及一個用于運動跟蹤的慣性測量單元。
全身控制:機械臂扭矩高達 120N · m,腿部扭矩達 360N · m,機械臂額定有效載荷為 7 公斤,峰值有效載荷為 15 公斤,舉升和伸展能力更強。
英偉達 Jetson AGX Thor T5000 板載計算:配備 NVIDIA Blackwell GPU,F(xiàn)P4 AI 性能達 2070TFLOPS,14 核 Arm CPU,128GB 統(tǒng)一內(nèi)存,以及可配置的 40 至 130 瓦功率范圍,用于實時傳感器處理和機器人推理。
支持以太網(wǎng)、Wi-Fi 6、藍牙 5.2、USB 連接,并配備一系列麥克風和揚聲器,用于語音交互。
電池容量為 15Ah,0.972kWh,續(xù)航時間約為 3 小時,可延長運行時間。
遠程緊急停止功能,可快速安全地脫離機器人。
宇樹科技已在官方公布 Isaac GR00T 參考人形機器人的全身配置:

斯坦福大學、蘇黎世聯(lián)邦理工學院、加州大學圣地亞哥分校和艾倫人工智能研究所均將采用該平臺開展研究。
今年年底,NVIDIA Isaac GR00T 參考人形機器人將由宇樹科技提供。
NVIDIA Isaac GR00T 開發(fā)者平臺還將支持宇樹 G1 人形機器人。針對宇樹 G1 的參考工作流程預計很快將在 GitHub 和 Hugging Face 上提供給機器人開發(fā)人員。
參考人形機器人初期版本結(jié)合 Isaac ROS 機器人操作系統(tǒng),不會采用 Holoscan Sensor Bridge,但英偉達正在研究如何將 Holoscan 的實時確定性和安全特性引入人形機器人技術棧。
結(jié)語:持續(xù)降低物理 AI 應用門檻,鞏固生態(tài)護城河
智能體正在向物理世界的生產(chǎn)環(huán)節(jié)滲透,并趨于以 " 智能體管智能體 " 的多智能體協(xié)同架構落地。同時," 云端訓練、邊緣推理 " 的分工日益成熟,本地算力已經(jīng)能分擔不少讓機器人不依賴聯(lián)網(wǎng)也能完成的復雜任務,這是物理 AI 大規(guī)模部署的必要條件。
大模型可通過海量互聯(lián)網(wǎng)數(shù)據(jù)來訓練,但現(xiàn)實世界是無限且不可預測的,物理 AI 的構建仍面臨重重挑戰(zhàn),要訓練出具有魯棒性和泛化能力的端到端策略模型,僅靠真實世界的數(shù)據(jù)遠遠不夠,還需要大量訓練數(shù)據(jù)和多樣化的環(huán)境、物體和任務。
英偉達的一系列發(fā)布,都在進一步降低物理 AI 的應用門檻和基礎設施成本。通過將每一環(huán)節(jié)開源或標準化,從模型研發(fā)到完整工作流都有了豐富的工具和參考教程。這將進一步鞏固英偉達在 AI 領域的生態(tài)護城河。