
在朝著 AGI 前進(jìn)的道路上,AI 持續(xù)向垂直場(chǎng)景化、3D 交互化落地,更多成熟的多模態(tài)大模型也在進(jìn)入市場(chǎng)。
穩(wěn)坐全球游戲頭把交椅的騰訊,一直瞄準(zhǔn)游戲研發(fā)需求很大的 3D 生成持續(xù)發(fā)力。
4 月 16 日,騰訊正式發(fā)布并開源了混元 3D 世界模型(HY-World 2.0)。
騰訊目前的 3D 系列模型分為兩類,如果說混元 3D 生成大模型專注單個(gè)高精度 3D 資產(chǎn),混元 3D 世界模型則致力于構(gòu)建完整、可交互、可導(dǎo)入游戲引擎的 3D 場(chǎng)景。
騰訊混元的 3D 世界模型正在一步步將 "AI 造世界 " 從概念變?yōu)楝F(xiàn)實(shí),但這條賽道角逐,才剛剛開始。同日,阿里也發(fā)布了世界模型 Happy Oyster,主打?qū)崟r(shí)世界創(chuàng)建與交互。
一鍵生成游戲世界
HY-World 2.0 是一個(gè)多模態(tài)世界模型,其核心能力在于能夠理解文字、圖片、視頻等不同類型的輸入,進(jìn)而自動(dòng)生成、重建和模擬 3D 世界。
同時(shí),HY-World 2.0 支持多格式 3D 資產(chǎn)(Mesh/3DGS/ 點(diǎn)云等)導(dǎo)出,可以與現(xiàn)有的游戲工作流無縫對(duì)接,用于快速生成游戲地圖和關(guān)卡原型。
也就是說,HY-World 2.0 更強(qiáng)調(diào)實(shí)用性,可以直接生成可供二次編輯的 3D 資產(chǎn)文件。
此外,HY-World 2.0 在交互性上也實(shí)現(xiàn)了突破。該模型支持 " 角色模式 ",允許用戶操作角色在生成的街道、建筑和場(chǎng)景中自由探索。
在技術(shù)實(shí)現(xiàn)路徑上,騰訊混元團(tuán)隊(duì)則以 3D 生成為主軸,通過統(tǒng)一空間理解、生成、重建的架構(gòu),達(dá)到了 SOTA 級(jí)的生成效果。
據(jù)悉,在傳統(tǒng)的 3D 生成方法中,往往需要精確的相機(jī)參數(shù)才能生成全景圖,但在實(shí)際操作中這些參數(shù)極難獲取。
HY-World 2.0 全新升級(jí)的 HY-Pano-2.0 模型采用了端到端的隱式學(xué)習(xí)方案,使模型能夠自行學(xué)會(huì)從普通圖片到 360 度全景的空間映射,大幅降低對(duì)相機(jī)元數(shù)據(jù)的依賴。
解決了空間構(gòu)建問題后,模型還需要解決如何在空間中合理移動(dòng)的挑戰(zhàn)。騰訊團(tuán)隊(duì)自研了空間 Agent 技術(shù),將視覺大語言模型(VLM)與游戲自動(dòng)尋路算法中常用的 navmesh 表征相結(jié)合。
這使得大模型不僅能理解空間語義,還能智能規(guī)劃出諸如 " 環(huán)繞物體 " 或 " 最大漫游 " 等合理的漫游軌跡,確保覆蓋高價(jià)值區(qū)域的同時(shí)避免穿墻或跑飛現(xiàn)象。
沿著這些規(guī)劃好的軌跡,騰訊打造新視角生成(NVS)模型 HY-WorldStereo 模型的任務(wù)則是讓新生成的區(qū)域與已有區(qū)域在幾何和視覺上銜接,保持高度的空間一致性,使得畫面質(zhì)量在快速生成中不會(huì)衰減。
早在 2024 年 11 月,騰訊就發(fā)布且開源了混元 3D 生成大模型 1.0,到去年騰訊混元 3D 生成大模型 3.0 上線。與此同時(shí),去年 7 月,混元 3D 世界模型 1.0 發(fā)布,
騰訊提供數(shù)據(jù)顯示,截至今年 3 月,混元 3D 系列模型在開源社區(qū)的下載量突破 300 萬,騰訊混元 3D 創(chuàng)作引擎也被德國(guó)軟件公司 Maxon 引入其專業(yè)三維軟件 Cinema 4D。
發(fā)力 3D 生成的背后
以 3D 大模型為核心的多模態(tài)大模型,近年來一直是騰訊發(fā)力的重點(diǎn)。
華爾街見聞從騰訊內(nèi)部了解到,相較于大語言模型,騰訊大模型團(tuán)隊(duì)這些年顯然將更多精力投入到了多模態(tài)大模型的打造中。
為了提升大語言模型的能力,在今年三月的業(yè)績(jī)會(huì)上,騰訊總裁劉熾平指出,過去幾個(gè)月騰訊比較密集地進(jìn)行了混元大模型團(tuán)隊(duì)的組織升級(jí)和工作流重構(gòu),同時(shí)也重新建立了整個(gè)預(yù)訓(xùn)練和強(qiáng)化學(xué)習(xí)的基礎(chǔ)設(shè)施,以及進(jìn)一步提升數(shù)據(jù)質(zhì)量。
據(jù)彼時(shí)披露,混元 3.0 正在內(nèi)測(cè)階段,4 月初會(huì)逐步對(duì)外開放。
如今,早于大語言模型混元 3.0," 好兄弟 "HY-World 2.0 先來了。
這也釋放出一個(gè)重要信息,即便開始加速提升混元大語言模型的能力,騰訊依然會(huì)持續(xù)發(fā)力多模態(tài)大模型。
騰訊重視多模態(tài)與 3D 世界,背后有著極為清晰的產(chǎn)業(yè)邏輯:一切為了核心業(yè)務(wù)的協(xié)同,尤其是向其最核心的 " 造血機(jī) " ——游戲業(yè)務(wù)輸送彈藥。
構(gòu)建一個(gè)復(fù)雜的開放世界地圖或精細(xì)的關(guān)卡原型,往往需要龐大的美術(shù)團(tuán)隊(duì)耗費(fèi)數(shù)月甚至數(shù)年時(shí)間。3D 大模型的出現(xiàn),精準(zhǔn)擊中了這一痛點(diǎn)。
通過一句話或一張草圖秒級(jí)生成可導(dǎo)入 UE 引擎的 3D 空間,這種技術(shù)一旦在內(nèi)部工作流中全面鋪開,將為騰訊游戲帶來驚人的降本增效成果,推動(dòng)游戲研發(fā)流程革新。
據(jù)華爾街見聞了解,騰訊自研無代碼編程游戲編輯器輕游夢(mèng)工坊已接入騰訊混元 3D 生成模型最新版本,構(gòu)建了 " 無代碼可視化編程 + 預(yù)制系統(tǒng) + 海量資源庫(kù) + AI 生成 " 的組合方案,形成了一個(gè) " 傻瓜式 " 的工具體系。
而《元夢(mèng)之星》等數(shù)十款騰訊內(nèi)部游戲也已深度應(yīng)用混元模型能力。
騰訊管理層在 3 月的業(yè)績(jī)會(huì)上也曾指出,生產(chǎn)力型 AI 智能體的普及將推動(dòng) 3D 等世界模型需求增長(zhǎng),因 AI 技術(shù)必然補(bǔ)充并最終強(qiáng)化計(jì)算機(jī)輔助設(shè)計(jì)(CAD)能力,該能力在工業(yè)設(shè)計(jì)、建筑領(lǐng)域至關(guān)重要,在游戲領(lǐng)域的重要性也持續(xù)提升。
與此同時(shí),騰訊管理層認(rèn)為,騰訊在物理 AI 及 3D 模型領(lǐng)域占據(jù)獨(dú)特有利位置,依托游戲業(yè)務(wù)積累的海量、深度 3D 圖形數(shù)據(jù)集,可為模型訓(xùn)練提供優(yōu)質(zhì)數(shù)據(jù)支撐,進(jìn)而向市場(chǎng)提供相關(guān) 3D 工具,具備承接市場(chǎng)需求的良好基礎(chǔ)。
然而,盡管 3D 生成技術(shù)描繪了宏大的業(yè)務(wù)賦能圖景,它當(dāng)前仍面臨著嚴(yán)峻的挑戰(zhàn)。
作為多模態(tài)生成中難度最大的領(lǐng)域之一,3D 生成對(duì)算力和數(shù)據(jù)資源有著極高的要求。時(shí)長(zhǎng)的增加或維度的提升會(huì)導(dǎo)致算力呈平方級(jí)的上升,復(fù)雜的幾何計(jì)算和物理模擬使得大規(guī)模應(yīng)用在推理成本上居高不下。
同時(shí),在追求極致精度的 3A 級(jí)游戲工業(yè)場(chǎng)景中,AI 生成的資產(chǎn)通常還需要大量的人工后期修正,距離完全的 " 開箱即用 " 仍有一段距離。大模型廠商必須在龐大的算力資本開支與實(shí)際的商業(yè)化效率之間找到平衡。