全球第一!智元斬獲 WorldArena 世界模型總分冠軍! | 極果
近日,具身領(lǐng)域熱門(mén)榜單 WorldArena Track1(世界模型感知與動(dòng)作響應(yīng)賽道)最新評(píng)測(cè)結(jié)果揭曉。智元自研的世界模型 Genie Envisioner-Sim 2.0(以下簡(jiǎn)稱(chēng) GE 2.0)憑借優(yōu)異的綜合表現(xiàn),登頂榜單榜首。
Project page: https://ge-sim-v2.github.io/
Arxiv:https://arxiv.org/abs/2605.27491
Github:https://github.com/AgibotTech/GE-Sim-V2
" 世界模型感知與動(dòng)作響應(yīng) " 賽道聚焦具身智能最本質(zhì)的 " 認(rèn)知與行動(dòng) " 能力,是評(píng)判通用人形機(jī)器人智能化水平的核心標(biāo)尺。在該賽道評(píng)測(cè)中,智元團(tuán)隊(duì)使用了原生的世界模型 GE 2.0,并未針對(duì)賽題進(jìn)行特殊設(shè)計(jì)優(yōu)化,僅基于榜單數(shù)據(jù)進(jìn)行了基礎(chǔ)微調(diào)(Finetune)。" 輕裝上陣 " 依然拔得頭籌,充分印證了 GE 2.0 強(qiáng)大的通用適配性。面對(duì)近期世界模型方向的火熱關(guān)注和創(chuàng)業(yè)浪潮,智元始終保持自己的節(jié)奏,從長(zhǎng)遠(yuǎn)第一性原理出發(fā) ,專(zhuān)注于打磨具身世界模型的堅(jiān)實(shí)技術(shù)底座。此次登頂,是智元堅(jiān)持長(zhǎng)期技術(shù)演進(jìn)的實(shí)力見(jiàn)證。
在 GE 2.0 技術(shù)報(bào)告中,智元團(tuán)隊(duì)對(duì)模型進(jìn)行了全面的能力剖析。相比上一代模型,GE 2.0 不僅在單點(diǎn)性能上實(shí)現(xiàn)了躍升,更真正演進(jìn)為一個(gè)全功能、高可用的世界模擬器,可構(gòu)建可試錯(cuò)、可迭代、可進(jìn)化的虛擬仿真環(huán)境,讓機(jī)器人策略在虛擬場(chǎng)景中自主積累經(jīng)驗(yàn)、完成動(dòng)態(tài)試錯(cuò),規(guī)避真實(shí)場(chǎng)景的試錯(cuò)成本,最終高效遷移至真實(shí)物理世界穩(wěn)定落地,真正實(shí)現(xiàn)從 " 感知預(yù)測(cè) " 到 " 仿真進(jìn)化、自主決策 " 的閉環(huán)升級(jí)。
功能矩陣全面補(bǔ)齊:GE 2.0 在功能上首次全面覆蓋了長(zhǎng)時(shí)序生成、多視角生成、本體狀態(tài)生成、近實(shí)時(shí)推理以及獎(jiǎng)勵(lì)判別等核心環(huán)節(jié),構(gòu)建了世界模擬器完整的技術(shù)能力閉環(huán)。
長(zhǎng)時(shí)序推演能力突破: 在長(zhǎng)時(shí)序推理任務(wù)中,GE 2.0 表現(xiàn)出極強(qiáng)的穩(wěn)定性,畫(huà)面質(zhì)量隨推理時(shí)長(zhǎng)的衰減顯著弱于行業(yè)基線(xiàn)方案。即使在連續(xù)推演 40-50 秒的長(zhǎng)視頻片段時(shí),其生成質(zhì)量依然超越了基線(xiàn)模型前 10 秒內(nèi)的表現(xiàn)。
高可靠的閉環(huán)評(píng)測(cè): 作為世界模擬器,核心在于能否真實(shí)反映物理世界。團(tuán)隊(duì)驗(yàn)證了大量閉環(huán)評(píng)測(cè)結(jié)果,證明 GE 2.0 在多項(xiàng)任務(wù)上均與真實(shí)世界保持著強(qiáng)相關(guān)性。這種相關(guān)性不止步于宏觀統(tǒng)計(jì)意義上的 " 成功率一致 ",團(tuán)隊(duì)還進(jìn)行了逐案(Case-by-case)的 rollout 結(jié)果對(duì)比分析,并通過(guò)混淆矩陣(Confusion Matrix)提供了嚴(yán)謹(jǐn)?shù)牧炕糇C,強(qiáng)有力地證明了 GE 2.0 作為策略評(píng)測(cè)器的可靠性。
打通數(shù)據(jù)回流反哺機(jī)制: 在獎(jiǎng)勵(lì)模型(Reward Model)的加持下,GE 2.0 能夠?qū)﹂]環(huán)評(píng)測(cè)的 rollout 過(guò)程進(jìn)行自動(dòng)化篩選,將世界模型中產(chǎn)出的有效高質(zhì)量數(shù)據(jù)精準(zhǔn)回流給策略模型(Policy Model)。實(shí)驗(yàn)證明,這一機(jī)制在多項(xiàng)任務(wù)上均助力策略模型實(shí)現(xiàn)了顯著的性能漲點(diǎn)。
2026 年是具身智能 " 部署態(tài) " 元年,機(jī)器人從實(shí)驗(yàn)室走向真實(shí)場(chǎng)景,規(guī)?;渴?,真正發(fā)揮具身智能生產(chǎn)力,這也對(duì)算法提出了更高的要求。專(zhuān)注底層技術(shù)攻堅(jiān)與產(chǎn)業(yè)價(jià)值落地,是智元一貫的技術(shù)理念。不論是 WorldArena 榜單上的優(yōu)異表現(xiàn)還是技術(shù)報(bào)告中的性能論證,都彰顯了 Genie Envisioner 技術(shù)路線(xiàn)的潛力。未來(lái),智元將持續(xù)迭代世界模擬器技術(shù)體系,打通具身智能技術(shù)閉環(huán),推動(dòng)世界模型真正走進(jìn)真實(shí)場(chǎng)景,為人形機(jī)器人規(guī)?;涞刂魏诵募夹g(shù)底座。
本文由極果用戶(hù)極果原創(chuàng)