
作者丨樊天驕、鄭佳美
編輯丨鄭佳美
想為手上的玻璃杯生成 3D 模型,需要幾步?
拍照、掃描、建模 ...... 聽上去似乎很簡單,可如果你真的動手試試,得到的往往是布滿孔洞、邊緣扭曲的殘缺結(jié)果。
這就是當(dāng)前 3D 重建技術(shù)的瓶頸:無論是爆火的 3D 高斯濺射(3D Gaussian Splatting, 3DGS)、神經(jīng)輻射場(Neural Radiance Fields, NeRF),還是傳統(tǒng)的多視圖立體匹配方法,都只對不反光的漫反射材質(zhì)且擁有足夠清晰的紋理特征的物體有效。
而對于那些具有反射、透明和低紋理表面特性的材料,現(xiàn)有技術(shù)可以說是束手無策,比如金屬、玻璃和陶瓷。金屬的反光特性會讓同一物體在不同角度、不同光照下呈現(xiàn)截然不同的特征,玻璃的折射徹底會扭曲光線傳播路徑,光滑的陶瓷則缺乏可供算法匹配的特征點(diǎn)。
這就造成了以下現(xiàn)象:服務(wù)機(jī)器人想要拿起一個玻璃碗,卻常常因?yàn)樽R別不到物體輪廓而失手;工業(yè)質(zhì)檢系統(tǒng)試圖掃描拋光后的不銹鋼零件時,得到的 3D 模型卻總是扭曲且失真的。
算法,就像是活在一個物體都是漫反射的世界里,而真實(shí)物理世界遠(yuǎn)遠(yuǎn)比這復(fù)雜得多。
在這樣的行業(yè)背景下,香港中文大學(xué)(深圳)王方鑫教授團(tuán)隊(duì)聯(lián)合首都師范大學(xué)、南加州大學(xué)的研究者提出了《3DReflecNet: A Large-Scale Dataset for 3D Reconstruction of Reflective, Transparent, and Low-Texture Objects》,構(gòu)建了專門針對反射、透明、低紋理三類高難度物體的大規(guī)?;旌?3D 重建數(shù)據(jù)集。
這項(xiàng)研究打造了一個包含 12 萬 + 合成實(shí)例、1000+ 真實(shí)物體、總規(guī)模超 22 TB 的綜合數(shù)據(jù)集,并建立了涵蓋圖像匹配、運(yùn)動恢復(fù)結(jié)構(gòu)、新視角合成、反射去除和重光照五大核心任務(wù)的標(biāo)準(zhǔn)化基準(zhǔn)。

01
3D 重建困境:PSNR 崩盤的核心原因
先說研究結(jié)論:所有當(dāng)前最優(yōu)的方法,都在復(fù)雜材料上的重建上出現(xiàn)了斷崖式的性能下跌。當(dāng)然,這并不能歸因于個別方法或技術(shù),這是全行業(yè)的困境。
研究團(tuán)隊(duì)用主流的 3DGS 方法,系統(tǒng)測試了 48 種不同材料參數(shù)組合下的重建性能,結(jié)果揭示了三種截然不同的失敗模式。

而透明材料在所有配置下有平均 5.82 dB 的 PSNR 下降,相當(dāng)于 19.3% 的質(zhì)量損失,并且折射率越高性能越差。一旦光線穿過玻璃后改變了方向,算法賴以建立對應(yīng)關(guān)系的對極約束就會被徹底打破。
最后是低粗糙度表面的相關(guān)實(shí)驗(yàn)。因?yàn)槠淙狈y理特征,PSNR 隨粗糙度從 0.0 提升至 0.9,總體可提高 5 dB,證明紋理缺失會直接導(dǎo)致特征匹配失效。
此外,研究團(tuán)隊(duì)對當(dāng)前 10 余種最先進(jìn)的 3D 視覺方法進(jìn)行了基準(zhǔn)測試,覆蓋圖像匹配、新視角合成、表面重建、反射去除和重光照五大核心任務(wù)。結(jié)果無一例外呈現(xiàn)斷崖式下跌,暴露了現(xiàn)有技術(shù)在具有復(fù)雜光學(xué)現(xiàn)象材料面前的系統(tǒng)性缺陷:


同樣,SuperPoint+SuperGlue 在 AUC@5 ° 指標(biāo)上僅獲得 15.2,而其在 MegaDepth 上的對應(yīng)結(jié)果為 49.7。



02
為什么現(xiàn)有的重建方法會失靈?
想要解析這一現(xiàn)象,我們需要了解現(xiàn)階段算法的兩種潛在邏輯。
第一種,算法會默認(rèn)物體光度一致。 算法的邏輯是:同一物體表面,無論從哪個角度看顏色都基本不變。如果識別一面墻,那么顯然它站在哪個方位看顏色都是一樣的——對啞光表面確實(shí)如此。但如果面對的是鏡面或者不銹鋼呢?
那它識別的就不是金屬本身,而是倒影和周圍環(huán)境的鏡像。這些鏡像的顏色、光澤自然是各有不同。
第二種,算法默認(rèn)物體均具有顯著的紋理特征。也就是說只有物體表面有足夠清晰的紋理,算法才能在不同視角之間建立對應(yīng)關(guān)系從而進(jìn)行標(biāo)記。好比你在地圖上靠地標(biāo)定位——如果到處都是一模一樣的白色平面,你根本無法判斷自己在哪里。
現(xiàn)有 3D 重建基準(zhǔn)數(shù)據(jù)集均圍繞著這兩個邏輯進(jìn)行設(shè)置,這也就導(dǎo)致 3D 重建技術(shù)整體存在著四個致命缺陷:
其一,材料覆蓋嚴(yán)重失衡。 幾乎所有主流數(shù)據(jù)集只聚焦普通漫反射物體,對于具有反射、透明、低紋理這三類特性的材料卻鮮有數(shù)據(jù)集覆蓋。而那些僅有的、對這幾類材料有所覆蓋的數(shù)據(jù)集,它們的樣本又少的可憐。比如 DTU 數(shù)據(jù)集只包含極少量玻璃物體樣本,MV Reflectance 數(shù)據(jù)集不到 20 個反射物體實(shí)例,NeRO 則僅有 8 個。

其二,數(shù)據(jù)類型單一且與現(xiàn)實(shí)存在明顯鴻溝。
純合成數(shù)據(jù)集(如 OpenMaterial )往往沒有真實(shí)世界的噪聲、光照波動和運(yùn)動模糊,因此訓(xùn)練出的模型在真實(shí)手機(jī)掃描場景中性能驟降;另一種純真實(shí)數(shù)據(jù)集(如 MVImgNet )則無法提供精確的深度、法線等標(biāo)注,無法定量評估復(fù)雜光學(xué)現(xiàn)象下的重建誤差。兩種數(shù)據(jù)各說各話,缺乏統(tǒng)一標(biāo)準(zhǔn)。
其三是任務(wù)支持狹窄。 絕大多數(shù)數(shù)據(jù)集僅支持基礎(chǔ)重建和新視角合成,并不具備測試反射去除、重光照等工業(yè)級功能。因此,人們無法驗(yàn)證算法能不能去掉玻璃櫥窗上的環(huán)境反光,也沒法測試在不同燈光下重新渲染同一個 3D 物體的效果。

針對以上諸多瓶頸,研究團(tuán)隊(duì)在開發(fā) 3DReflecNet 數(shù)據(jù)集時做出了如下措施:
首先在設(shè)置上,研究人員將 3DReflecNet 建設(shè)成為了 " 合成 + 真實(shí) " 合一的數(shù)據(jù)集。 3DReflecNet 同時包含 12 萬 + 高精度合成實(shí)例和 1000+ 真實(shí)世界掃描物體,總規(guī)模超 22 TB,系統(tǒng)覆蓋 22 種高難度材料和 2700+ 真實(shí)光照條件。合成數(shù)據(jù)與真實(shí)數(shù)據(jù)的性能趨勢高度一致,驗(yàn)證了合成數(shù)據(jù)的物理真實(shí)性。

同時,該團(tuán)隊(duì)還用 iPhone 16 Pro 采集真實(shí)物體,先通過跟蹤底座獲得精確的相機(jī)位姿(Camera Pose),再用 SAM 2 分割出目標(biāo)物體,巧妙繞開了復(fù)雜材料無法提供穩(wěn)定特征點(diǎn)的難題。
在標(biāo)注方面,3DReflecNet 為每個合成實(shí)例提供 60 視角、1000 × 1000 分辨率的 RGB 圖像,以及 3D 幾何(點(diǎn)云 + 網(wǎng)格)、物體分割掩碼、稠密深度圖、表面法線圖等全套標(biāo)注,確保所有定量評估有據(jù)可查。
此外,每個實(shí)例還配有由 Qwen3-VL-30B-A3B-Instruct 生成的詳細(xì)文本描述和標(biāo)簽,為 text-to-3D、image-to-3D 等生成式任務(wù)提供基礎(chǔ)。
03
3D 重建技術(shù)的未來發(fā)展方向在哪?
3DReflecNet 最重要的價值并不只是新增了一個大規(guī)模數(shù)據(jù)集。它首次系統(tǒng)揭示了當(dāng)前 3D 重建技術(shù)與真實(shí)物理世界之間的根本性矛盾。
長期以來,3D 視覺領(lǐng)域的發(fā)展建立在一個隱含前提之上:物體表面滿足漫反射特性,并且擁有足夠豐富的紋理信息。在這樣的假設(shè)下,研究社區(qū)構(gòu)建的數(shù)據(jù)集、設(shè)計的評測指標(biāo)以及提出的算法框架形成了一套自洽的技術(shù)體系。然而現(xiàn)實(shí)世界并不是按照算法的標(biāo)準(zhǔn)來運(yùn)行的。玻璃、金屬、陶瓷這些廣泛存在于家庭、工業(yè)和商業(yè)場景中的材料所展現(xiàn)出復(fù)雜的光學(xué)現(xiàn)象,完全超出了算法 " 光度一致性 " 和 " 特征對應(yīng)關(guān)系 " 這兩套直白的邏輯。

同時該研究也為行業(yè)建立了一套統(tǒng)一的評測標(biāo)準(zhǔn)。過去,反光物體重建效果的優(yōu)劣是一個模糊的共識——畢竟用不同的算法和不同的數(shù)據(jù)集進(jìn)行不同類型的測試的確很難比較出性能高低。
而 3DReflecNet 圍繞圖像匹配、表面重建、新視角合成、反射去除和重光照五類核心任務(wù)構(gòu)建標(biāo)準(zhǔn)化基準(zhǔn),使研究者能夠在相同條件下客觀評估算法能力,推動復(fù)雜材料 3D 重建從經(jīng)驗(yàn)判斷走向可量化評價。
從應(yīng)用角度看,這一問題直接關(guān)系到服務(wù)機(jī)器人、AR/VR、數(shù)字孿生、工業(yè)檢測等領(lǐng)域的發(fā)展。真實(shí)環(huán)境中大量目標(biāo)物體都具有反射、透明或低紋理特征,如果無法準(zhǔn)確理解這些材料的幾何特征與光學(xué)屬性,3D 視覺系統(tǒng)將始終難以完成從實(shí)驗(yàn)室到實(shí)際場景的跨越。
因此,3DReflecNet 所傳遞的信息也為整個領(lǐng)域指出了新的研究方向:未來的 3D 重建技術(shù)需要從單純的幾何恢復(fù)進(jìn)一步走向物理世界建模,同時將不同材料屬性、光照傳輸、反射與折射規(guī)律納入統(tǒng)一框架,真正構(gòu)建出在現(xiàn)實(shí)場景中具備物理感知能力的下一代 3D 視覺系統(tǒng)。
04
3DReflecNet 背后的科研工作者
這篇論文的通訊作者為王方鑫博士,現(xiàn)為香港中文大學(xué)(深圳)助理教授、博士生導(dǎo)師。他分別于加拿大西蒙弗雷澤大學(xué)、清華大學(xué)、北京郵電大學(xué)取得博士、碩士、學(xué)士學(xué)位。現(xiàn)領(lǐng)導(dǎo)香港中文大學(xué)(深圳)智能網(wǎng)絡(luò)與多媒體實(shí)驗(yàn)室,研究方向包括多媒體網(wǎng)絡(luò)與系統(tǒng),云邊端協(xié)同計算,深度學(xué)習(xí),大模型與邊緣智能等。
迄今為止,他已在 SIGCOMM、TON、INFOCOM、ACMMM 等領(lǐng)域頂級期刊與會議發(fā)表論文六十余篇,論文總引用超 1500 次,多篇代表作聚焦強(qiáng)化學(xué)習(xí)賦能邊緣緩存、直播優(yōu)化、車載智能識別等前沿課題。
在學(xué)術(shù)服務(wù)方面,王方鑫兼任 IEEE Transactions on Mobile Computing 等多本權(quán)威期刊編委,牽頭擔(dān)任多項(xiàng)國際學(xué)術(shù)會議程序主席、出版主席,同時受聘為中國電子學(xué)會、中國計算機(jī)學(xué)會相關(guān)專委會委員及通信學(xué)會高級會員。
此外,王方鑫博士曾獲 2023 廣東省科技進(jìn)步二等獎,入選 2022 中國科協(xié) " 青年托舉人才計劃 ",2022、2023 連續(xù)兩年入選斯坦福大學(xué) " 世界前 2% 頂尖科學(xué)家榜單 " ,主持和參與多項(xiàng)基金委、科技部、省市與橫向項(xiàng)目。

去哪看 CVPR 核心
【演講 / 論文】詳解?
為了讓國內(nèi)的研發(fā)者、創(chuàng)業(yè)者與投資人能夠毫無時差地掌握本屆 CVPR 2026 的完整干貨,雷峰網(wǎng)已全面上線【CVPR 2026 深度專區(qū)】。
專區(qū)不僅全面收錄了重磅論文的工程化解讀、專家前沿演講,更將持續(xù)更新前方記者的第一手會議動態(tài)。
掃描下方二維碼,或點(diǎn)擊「閱讀原文」關(guān)注專區(qū)。
與全球 8000 名頂尖大腦同步呼吸,搶先透視具身智能的下一個五年!