电竞比分网-中国电竞赛事及体育赛事平台

關(guān)于ZAKER 合作
新浪極客前線 1小時(shí)前

小鵬發(fā)布世界模型技術(shù)報(bào)告 , 已應(yīng)用于第二代 VLA 模型的研發(fā)與驗(yàn)證

【2026 年 4 月 1 日】近日,小鵬汽車正式發(fā)布世界模型 X-World 技術(shù)報(bào)告,從數(shù)據(jù)、模型、訓(xùn)練、驗(yàn)證及應(yīng)用等多層面詳解 X-World 的構(gòu)建與使用。X-World 是一個(gè)基于視頻擴(kuò)散生成技術(shù)(Video Diffusion)構(gòu)建的、服務(wù)于自動(dòng)駕駛的可控多視角生成式世界模型,具備多視角下即時(shí)響應(yīng)與持續(xù)生成的能力。技術(shù)報(bào)告還展示了 X-World 在小鵬汽車自動(dòng)駕駛中的實(shí)際應(yīng)用價(jià)值,該模型已投入到閉環(huán)仿真測(cè)試、在線強(qiáng)化學(xué)習(xí)、數(shù)據(jù)生成等實(shí)際生產(chǎn)環(huán)節(jié)。在近期向用戶陸續(xù)推送的第二代 VLA 的研發(fā)與驗(yàn)證過程中,X-World 也已被大量用于環(huán)境仿真與模型評(píng)估。

自動(dòng)駕駛系統(tǒng)的評(píng)估主要依賴真實(shí)道路測(cè)試與仿真測(cè)試。其中,仿真測(cè)試具備成本更低、效率更高、場(chǎng)景覆蓋更廣、可重復(fù)驗(yàn)證等優(yōu)勢(shì)。傳統(tǒng)仿真評(píng)估大量采用基于 3D 高斯濺射(3DGS)的技術(shù)路線,這類方法能夠在一定程度上復(fù)現(xiàn)真實(shí)場(chǎng)景,但當(dāng)自動(dòng)駕駛模型產(chǎn)生大幅變道、繞行等明顯偏離原始采集軌跡的行為時(shí),這種方法往往難以對(duì)超出既有重建范圍的后續(xù)場(chǎng)景進(jìn)行有效生成與評(píng)估。因此,行業(yè)內(nèi)仍高度依賴實(shí)車道路測(cè)試,而這種方式存在著成本高、場(chǎng)景覆蓋有限、難以復(fù)現(xiàn)指定情況等問題。

為了解決這些瓶頸,小鵬生成世界模型團(tuán)隊(duì)試圖構(gòu)建一個(gè) " 現(xiàn)實(shí)世界模擬器 ",讓它能夠在給定動(dòng)作條件下生成符合物理約束的未來視頻,同時(shí)在持續(xù)生成過程中保持良好的可控性與穩(wěn)定性。在這一背景下,X-World 應(yīng)運(yùn)而生,通過輸入多攝像頭的歷史視頻流和待執(zhí)行的駕駛動(dòng)作(或動(dòng)作序列),便可生成對(duì)應(yīng)的未來多攝像頭視頻流。X-World 可以被視為一個(gè)會(huì) " 思考 " 駕駛場(chǎng)景的物理 AI 系統(tǒng),它能夠根據(jù)當(dāng)前的路況和駕駛操作,想象出數(shù)秒后路況的變化。

架構(gòu)層面,X-World 基于當(dāng)前領(lǐng)先的視頻生成模型 WAN 2.2 構(gòu)建,沿用其潛空間視頻生成范式,將視頻 VAE 與基于 DiT 的潛空間去噪器相結(jié)合。底層采用高壓縮比 3D 因果自編碼器(VAE),大幅降低計(jì)算與內(nèi)存開銷,支持長時(shí)序視頻建模,從而更好地捕捉豐富的時(shí)空依賴關(guān)系,同時(shí)降低延遲、加快推理速度。模型骨干為定制化的 DiT 骨干網(wǎng)絡(luò),通過視角 - 時(shí)間自注意力機(jī)制,實(shí)現(xiàn)時(shí)間維度和視角維度的聯(lián)合建模,從而確保 7 路攝像頭視角間的一致性。X-World 還提供了一套全面的條件控制接口,包括自車動(dòng)作、動(dòng)態(tài)交通參與者、靜態(tài)道路元素(如車道線、道路邊界)、攝像頭內(nèi)外參,可對(duì)駕駛場(chǎng)景的生成過程進(jìn)行細(xì)粒度調(diào)控。這些設(shè)計(jì)共同實(shí)現(xiàn)了多輸入條件下的可控多視角生成。

X-World 模型(框架如上圖所示)

在本篇技術(shù)報(bào)告中,小鵬團(tuán)隊(duì)圍繞 X-World 實(shí)際落地過程中遇到的技術(shù)難點(diǎn)做了分享,核心在于如何實(shí)現(xiàn)跨視角 3D 一致性、多條件受控生成準(zhǔn)確、長時(shí)序畫面生成。除了模型架構(gòu)上的新穎嘗試,在訓(xùn)練層面,團(tuán)隊(duì)采用了兩個(gè)階段的訓(xùn)練方式:

l 第一階段,將一個(gè)大型預(yù)訓(xùn)練視頻生成模型,改造為完全可控的多攝像頭世界模型。

l 第二階段,通過 " 分塊因果架構(gòu) " 和 " 少步自強(qiáng)制學(xué)習(xí) ",結(jié)合滾動(dòng)鍵值緩存,將模型轉(zhuǎn)換為流式自回歸模擬器。

與傳統(tǒng)的雙向視頻擴(kuò)散模型不同,X-World 采用流式自回歸的方式運(yùn)行,可以逐步生成未來視頻畫面以進(jìn)行實(shí)時(shí)交互,這一設(shè)計(jì)使得模型能夠天然適用于閉環(huán)場(chǎng)景,既可為端到端策略的可擴(kuò)展評(píng)估提供支撐,也可應(yīng)用于在線強(qiáng)化學(xué)習(xí)訓(xùn)練。

實(shí)驗(yàn)結(jié)果顯示,X-World 實(shí)現(xiàn)了高質(zhì)量的多視角視頻生成??傮w而言,它具備以下三大核心優(yōu)勢(shì):

l 實(shí)現(xiàn)了較強(qiáng)的跨視角一致性,確保各攝像頭間(7 路環(huán)視攝像頭)的幾何信息與目標(biāo)特征一致;

l 嚴(yán)格的動(dòng)作跟隨性,生成的未來畫面與指令要求的自車行為高度匹配;

l 具備長視頻推演能力,可在較長的時(shí)間跨度內(nèi)實(shí)現(xiàn)穩(wěn)定的預(yù)測(cè)。上述特性讓生成式世界模型更接近實(shí)用的 " 現(xiàn)實(shí)世界仿真器 " 形態(tài),能夠?yàn)?VLA 自動(dòng)駕駛系統(tǒng)提供可復(fù)現(xiàn)的基準(zhǔn)測(cè)試、可擴(kuò)展的回歸測(cè)試與交互式學(xué)習(xí)支撐。

在具體的應(yīng)用場(chǎng)景上,X-World 不僅僅是一個(gè)視頻生成模型,更是一個(gè)高保真、交互式、可控的底層基礎(chǔ)平臺(tái),服務(wù)于小鵬汽車第二代 VLA 的開發(fā)與驗(yàn)證。目前,X-World 已經(jīng)在小鵬汽車自動(dòng)駕駛的閉環(huán)仿真測(cè)試、在線強(qiáng)化學(xué)習(xí)、數(shù)據(jù)生成等環(huán)節(jié)起到支撐作用。

l 依托 X-World,小鵬構(gòu)建面向第二代 VLA 的閉環(huán)評(píng)估引擎。區(qū)別于傳統(tǒng)的基于 3D 重建的技術(shù)路線,X-World 可進(jìn)行交互式推演,并支持對(duì)安全關(guān)鍵指標(biāo)進(jìn)行評(píng)估。例如,在 X-World 中運(yùn)行第二代 VLA,可在高度貼近真實(shí)世界視覺分布的虛擬環(huán)境中,評(píng)估碰撞率、目標(biāo)達(dá)成進(jìn)度、乘坐舒適性等性能指標(biāo)。目前,小鵬自動(dòng)駕駛仿真場(chǎng)景從一年前的 3 萬增加到 50 多萬個(gè),每日仿真測(cè)試?yán)锍痰刃в?3000 萬公里實(shí)車測(cè)試。

lX-World 可充當(dāng)在線強(qiáng)化學(xué)習(xí)的仿真平臺(tái)。可利用 X-World 的可控性,針對(duì)自動(dòng)駕駛中的難點(diǎn)場(chǎng)景進(jìn)行專項(xiàng)優(yōu)化,例如重點(diǎn)優(yōu)化模型在路口遭遇行人 " 鬼探頭 "、 擁堵路段變道猶豫等場(chǎng)景的表現(xiàn)。

X-World 可實(shí)現(xiàn)大規(guī)模數(shù)據(jù)生成與增強(qiáng)。X-World 作為生成式數(shù)據(jù)工廠,既可以生成缺失的長尾場(chǎng)景數(shù)據(jù),提升第二代 VLA 應(yīng)對(duì)長尾場(chǎng)景(Corner Case)的能力,也能生成海外數(shù)據(jù)用于模型訓(xùn)練,加速小鵬自動(dòng)駕駛?cè)蚧涞剡M(jìn)程。

除了正式發(fā)布世界模型技術(shù)報(bào)告,本月,小鵬第二代 VLA 已正式向用戶推送,帶來全面提升的用戶使用體驗(yàn)。從前沿技術(shù)探索到工程化落地,小鵬汽車持續(xù)以先進(jìn)科技與強(qiáng)大技術(shù)實(shí)力,為用戶帶來全場(chǎng)景、更安心和高效的智駕體驗(yàn),讓更安全、更智能的自動(dòng)駕駛普及到每一條道路。

更多信息可參閱技術(shù)報(bào)告全文及官方網(wǎng)站:

技術(shù)報(bào)告地址:https://arxiv.org/abs/2603.19979

網(wǎng)站:https://x-world-1.github.io/

關(guān)于小鵬汽車

小鵬汽車致力于通過探索科技,引領(lǐng)未來出行變革,做 " 未來出行探索者 "。公司總部位于廣州,在北京、上海、深圳、肇慶、揚(yáng)州等地設(shè)有研發(fā)中心,并在肇慶和廣州布局智能制造基地。同時(shí),小鵬汽車面向全球進(jìn)行研發(fā)和銷售布局,已在美國設(shè)立研發(fā)中心、在歐洲多地設(shè)立分公司。小鵬汽車堅(jiān)持全棧自主研發(fā)智能輔助駕駛軟件和開發(fā)核心硬件,為用戶帶來卓越的智能駕乘體驗(yàn)。2020 年 8 月 27 日,小鵬汽車正式登陸紐交所,募資規(guī)模打破當(dāng)時(shí)全球新能源汽車行業(yè) IPO 紀(jì)錄,股票代碼為 "NYSE:XPEV";2021 年 7 月 7 日,小鵬汽車掛牌香港聯(lián)交所,股票代碼 "9868.HK",成為首個(gè)在中國香港和美國紐約兩地雙重主要上市的中國造車新勢(shì)力。

更多信息,歡迎登陸小鵬汽車官方網(wǎng)站 www.xiaopeng.com

相關(guān)標(biāo)簽

相關(guān)閱讀

最新評(píng)論

沒有更多評(píng)論了

覺得文章不錯(cuò),微信掃描分享好友

掃碼分享

熱門推薦

查看更多內(nèi)容

企業(yè)資訊

查看更多內(nèi)容