機器人 AI 領域或正迎來類似大語言模型的能力躍遷時刻。
總部位于舊金山的機器人初創(chuàng)公司 Physical Intelligence 周四發(fā)布最新研究,稱其新模型 π 0.7 能夠指揮機器人完成從未經(jīng)過專項訓練的任務——這一能力甚至令公司自身研究人員感到意外。
該公司聯(lián)合創(chuàng)始人、加州大學伯克利分校教授 Sergey Levine 表示,這標志著機器人 AI 正在從 " 死記硬背 " 走向 " 舉一反三 ",其能力提升速度將超越訓練數(shù)據(jù)規(guī)模的線性增長。
這一突破若得到外部驗證,將對機器人行業(yè)的商業(yè)化路徑產(chǎn)生深遠影響——機器人有望在無需額外數(shù)據(jù)采集或模型重訓練的前提下,被部署至全新環(huán)境并實時優(yōu)化。與此同時,據(jù)報道 Physical Intelligence 正就新一輪融資進行洽談,估值或從 56 億美元接近翻倍至 110 億美元。
核心突破:從 " 專項記憶 " 到 " 組合泛化 "
Physical Intelligence 成立僅兩年,此次發(fā)布的 π 0.7 模型所展示的核心能力被研究人員稱為 " 組合泛化 "(compositional generalization)——即將在不同場景下習得的技能加以組合,從而解決模型從未遇到過的新問題。
這與此前機器人訓練的主流范式截然不同。過去的標準做法本質(zhì)上是 " 死記硬背 ":針對每一項具體任務收集數(shù)據(jù)、訓練專項模型,再對下一項任務重復這一流程。π 0.7 打破了這一模式。
Levine 將這一轉(zhuǎn)變類比于大語言模型領域曾出現(xiàn)的能力躍遷:" 一旦跨越那個臨界點,從只能完成有數(shù)據(jù)支撐的任務,轉(zhuǎn)變?yōu)槟軌蛞孕路绞街匦陆M合技能,能力提升的速度就會超過數(shù)據(jù)量增長的線性比例。這種更有利的擴展特性,我們此前已在語言和視覺領域觀察到過。"
關鍵演示:空氣炸鍋實驗揭示 " 知識涌現(xiàn) "
此次研究中最具說服力的演示,來自一臺模型幾乎從未在訓練中見過的空氣炸鍋。研究團隊事后排查發(fā)現(xiàn),整個訓練數(shù)據(jù)集中僅有兩條相關記錄:一條是另一臺機器人將空氣炸鍋推關,另一條來自開源數(shù)據(jù)集,記錄了一臺機器人按指令將塑料瓶放入其中。
然而,π 0.7 將這兩段碎片化信息與更廣泛的網(wǎng)絡預訓練數(shù)據(jù)加以整合,形成了對該設備運作方式的功能性理解。在零提示的情況下,模型嘗試用空氣炸鍋烹飪紅薯,取得了基本可接受的結(jié)果;在獲得逐步語言指引后,任務執(zhí)行成功。
Physical Intelligence 研究員、斯坦福大學計算機科學博士生 Lucy Shi 描述了一個早期實驗的戲劇性轉(zhuǎn)變:初始成功率僅為 5%,但在花費約半小時優(yōu)化對任務的描述方式后,成功率躍升至 95%。" 有時候失敗不在機器人,也不在模型,而在于我們自己——提示詞工程做得不夠好," 她說。
研究科學家 Ashwin Balakrishna 則表示,過去他總能根據(jù)訓練數(shù)據(jù)預判模型的能力邊界," 但過去幾個月是我第一次真正感到驚訝。我隨手買了一套齒輪,問機器人能不能轉(zhuǎn)動它,它就直接做到了。"
局限性:研究人員主動劃定邊界
研究團隊對模型的局限性保持坦誠。π 0.7 目前尚無法從單一高層指令出發(fā),自主完成復雜的多步驟任務。" 你不能對它說 ' 去給我做片吐司 ',"Levine 說," 但如果你一步步引導它—— ' 對于烤面包機,打開這個部分,按那個按鈕,做這個 ' ——它通常能做得很好。"
此外,機器人領域目前缺乏標準化基準測試,使得外部驗證存在相當難度。Physical Intelligence 選擇將 π 0.7 與自家此前的專項模型進行對比,結(jié)果顯示這一通用模型在制作咖啡、折疊衣物、組裝箱子等復雜任務上達到了專項模型的水準。
論文本身在措辭上也保持審慎,將 π 0.7 描述為展現(xiàn)出泛化能力的 " 早期跡象 " 和 " 初步演示 "。當被直接追問基于上述研究的系統(tǒng)何時能夠?qū)嶋H部署時,Levine 拒絕給出預測:" 我認為有充分理由保持樂觀,進展速度也比我兩年前預期的要快。但這個問題我很難回答。"
資本押注:估值或翻倍至 110 億美元
Physical Intelligence 迄今已累計融資逾 10 億美元,最新估值為 56 億美元。據(jù)報道,該公司目前正就新一輪融資進行洽談,估值或接近翻倍至 110 億美元。
投資者對這家公司的熱情,在相當程度上源于聯(lián)合創(chuàng)始人 Lachy Groom 的背書。Groom 此前是硅谷最受認可的天使投資人之一,曾投資 Figma、Notion 和 Ramp 等知名公司,在決定聯(lián)合創(chuàng)立 Physical Intelligence 之前,他將其視為自己一直在尋找的那家公司。這一背景幫助這家初創(chuàng)公司吸引到了機構資金,盡管公司始終拒絕向投資者提供商業(yè)化時間表。
Levine 在談及外界可能的質(zhì)疑時,主動預判了批評方向:" 針對任何機器人泛化演示,永遠可以提出的批評是——任務太無聊了,機器人又沒在做后空翻。" 他對此提出反駁:真正能夠泛化的機器人系統(tǒng),看起來永遠不如精心編排的特技演示那般震撼,但其實用價值要高得多。