
作者丨向 欣
編輯丨高景輝
在競技體育中,有一種勝利含金量最高——在對(duì)手主場、用對(duì)手制定的規(guī)則、擊敗對(duì)手。
剛剛,一家中國公司在北美具身智能的 " 奧林匹克 " 賽場上,完成了這一壯舉。
由 UC Berkeley、斯坦福和英偉達(dá)聯(lián)合發(fā)起的全球具身智能實(shí)戰(zhàn)評(píng)測平臺(tái) RoboArena,被譽(yù)為機(jī)器人領(lǐng)域的 "Chatbot Arena"。RoboArena 最新榜單顯示,千尋智能自研的具身基座模型Spirit v1.6,在技術(shù)全能項(xiàng)目中力壓英偉達(dá)最新模型 Cosmos3 與 Physical Intelligence (以下簡稱 PI)Pi0.5,排名全球第一,成為前三名中唯一的中國具身模型。


同時(shí),千尋智能在資本市場上也獲得了頂薪續(xù)約。千尋智能今日正式官宣完成15 億元 A+輪融資,三個(gè)月融資四輪,刷新具身智能行業(yè)融資速度記錄,股東包含一線美元基金、大型產(chǎn)業(yè)投資方以及國資基金,老股東持續(xù)加碼,構(gòu)筑起頂級(jí)財(cái)務(wù) PE、國際美元基金、實(shí)業(yè)產(chǎn)業(yè)資本、各地方國資等全方位合圍的頂配資本陣容。
至此,千尋今年累計(jì)融資金額已近50 億元。
技術(shù)登頂與資本頂配兩件事放在一起看,背后傳遞出的信息遠(yuǎn)比表面看到的更加豐富。
過去一年,具身智能領(lǐng)域融資紀(jì)錄不斷刷新,榜單高分層出不窮,但 " 刷榜 " 現(xiàn)象讓這些成績的真實(shí)含金量備受質(zhì)疑。
RoboArena 受到關(guān)注,正是因?yàn)樵噲D解決這個(gè)問題。它把具身 Benchmark 從標(biāo)準(zhǔn)化考試變成了一場防作弊、重泛化、難以刷分的全球?qū)崙?zhàn)擂臺(tái)賽,模型需要面對(duì)完全未知的場景和物體,實(shí)打?qū)嵉乜简?yàn)泛化性與穩(wěn)定性。
千尋的模型登頂,也足以讓整個(gè)行業(yè)重新審視中國玩家的位置。
長期以來,具身智能領(lǐng)域最重要的話語權(quán)主要掌握在美國頭部機(jī)構(gòu)手中。如今,中國企業(yè)已在模型能力和落地速度上快速追趕,實(shí)現(xiàn)并跑甚至領(lǐng)跑。
在具身智能的技術(shù)對(duì)決中,以千尋智能為代表的中國力量已經(jīng)具備了與美國頂尖玩家正面掰手腕的底氣。
大額融資的持續(xù)落地,則讓這種技術(shù)優(yōu)勢有機(jī)會(huì)進(jìn)一步轉(zhuǎn)化為數(shù)據(jù)優(yōu)勢和場景優(yōu)勢。中國具身智能企業(yè),會(huì)跑得越來越快。
01
具身智能的奧林匹克全能賽 RoboArena,為什么難拿冠軍?
具身智能行業(yè)一直存在一個(gè)現(xiàn)實(shí)問題:評(píng)測成績與真實(shí)世界表現(xiàn)并不能簡單畫等號(hào)。榜單高分與真實(shí)世界的泛化落地之間,橫亙著一條巨大的鴻溝。
問題出在評(píng)測方式上。具身智能領(lǐng)域建立了大量 Benchmark。不同榜單覆蓋仿真、真機(jī)、導(dǎo)航、操作、長程任務(wù)以及 VLA 模型、世界模型等不同條件和方向,為研究者提供了統(tǒng)一的評(píng)價(jià)體系,也推動(dòng)了技術(shù)進(jìn)步。
但標(biāo)準(zhǔn)化評(píng)測天然存在局限。為了保證可重復(fù)性,大多數(shù)榜單都會(huì)固定場景、固定任務(wù)和固定評(píng)價(jià)規(guī)則。模型經(jīng)過反復(fù)訓(xùn)練后,可以逐漸適應(yīng)這些測試條件。
于是行業(yè)開始出現(xiàn)" 刷榜 " 現(xiàn)象,不少公司針對(duì)榜單進(jìn)行專項(xiàng)優(yōu)化,從而刷出高分,但這與具身智能所追求的核心能力 " 泛化 " 背道而馳。結(jié)果是,某些模型能夠在特定任務(wù)上取得極高分?jǐn)?shù),但換環(huán)境、物體或者操作順序,表現(xiàn)可能大幅下降。
這種做法就像學(xué)生靠題海戰(zhàn)術(shù)拿滿分,換個(gè)沒做過的題目就束手無策。模型越來越會(huì)考試,卻未必越來越會(huì)干活。
PI 的具身模型核心研究員 Karl Pertsch 曾犀利地評(píng)價(jià)這類榜單:" 注定是徒勞 "。
對(duì)于需要進(jìn)入工廠、門店和家庭的機(jī)器人來說,此類成績參考價(jià)值不夠高。" 刷榜 " 現(xiàn)象也削弱了榜單的說服力。
RoboArena 的突破性在于重新設(shè)計(jì)了評(píng)測邏輯,與大多數(shù) Benchmark 追求標(biāo)準(zhǔn)化不同,RoboArena 把評(píng)測重點(diǎn)放在泛化能力上。模型無法提前適配固定場景,每一次測試都需要面對(duì)新的環(huán)境、新的物體和新的任務(wù)組合。
這份榜單由UC Berkeley、斯坦福、英偉達(dá)聯(lián)合發(fā)起,是具身智能領(lǐng)域首個(gè)國際公開性評(píng)測平臺(tái),榜單規(guī)則來自行業(yè)最核心的一批前沿技術(shù)研究者。
值得注意的是,PI 的聯(lián)合創(chuàng)始人 Sergey Levine、核心研究員 Karl Pertsch也是該測試平臺(tái)的核心設(shè)計(jì)者。

為了避免人為的技術(shù)性干預(yù),RoboArena 采用" 全球眾包 + 雙盲 "機(jī)制。評(píng)測員分布在不同國家和地區(qū),任務(wù)和場景則由評(píng)測研究員自行設(shè)計(jì),多聚焦操作類任務(wù),測試整個(gè)過程中操作員不會(huì)獲知模型身份,完全盲測,測試結(jié)果全部開源。
在這種規(guī)則下,賽事對(duì)泛化能力的要求近乎苛刻。提前備考的可能性被切斷,參賽模型的每一次測試都是臨場發(fā)揮,需要面對(duì)極其多樣化的環(huán)境與任務(wù),可能是從未見過的物品,也可能是從未適應(yīng)過的場景。

熟悉電競或者國際象棋的人應(yīng)該知道,ELO 最大的特點(diǎn)是打敗強(qiáng)者獲得更多積分。不看你贏了多少次,只看你贏了誰。打敗強(qiáng)隊(duì)加分高,贏弱隊(duì)加分少。
這種機(jī)制大幅降低了刷榜空間,讓真正有實(shí)力的黑馬能夠浮出水面,也能夠持續(xù)淘汰名不副實(shí)的高分選手。

如果把傳統(tǒng) Benchmark 理解為訓(xùn)練賽,那么 RoboArena 更接近總決賽。當(dāng)不少團(tuán)隊(duì)還在訓(xùn)練賽里爭奪 MVP 時(shí),千尋已經(jīng)在總決賽里拿到了 FMVP。
能在任意場景、任意任務(wù)的隨機(jī)對(duì)決中勝出,意味著模型已經(jīng)具備了走出實(shí)驗(yàn)室、進(jìn)入真實(shí)商業(yè)場景的核心素養(yǎng)。它比任何單一任務(wù)的高分都更具落地參考價(jià)值。
02
客場戰(zhàn)勝英偉達(dá)與 PI,千尋半年內(nèi)完成 " 兩連冠 "
這不是千尋第一次登頂國際權(quán)威榜單。今年 1 月,千尋自研的 Spirit v1.5 在 RoboChallenge 的 Table30 榜單上一舉登頂,超過了之前的最強(qiáng)模型 PI0.5。
有意思的是,RoboChallenge 和 RoboArena 的評(píng)測邏輯完全不同。前者關(guān)注模型在統(tǒng)一條件下能做到什么水平;后者關(guān)注模型面對(duì)隨機(jī)的任務(wù)、未知的世界能否持續(xù)發(fā)揮。
RoboChallenge 由 Dexmal、Hugging Face、智源研究院等聯(lián)合發(fā)起,是全球首個(gè)大規(guī)模真機(jī)(real-robot)具身智能評(píng)測平臺(tái),評(píng)測采用統(tǒng)一硬件和標(biāo)準(zhǔn)化環(huán)境,要求參賽模型完成30 項(xiàng)固定任務(wù),重點(diǎn)考察模型在相同條件下的綜合能力與任務(wù)完成質(zhì)量。
RoboArena 的評(píng)測環(huán)境、任務(wù)內(nèi)容和操作對(duì)象則都具有較強(qiáng)隨機(jī)性。
Spirit 能夠連續(xù)登頂兩套邏輯完全不同的評(píng)測體系,說明其在標(biāo)準(zhǔn)化環(huán)境下的綜合能力和開放環(huán)境下的泛化能力,都得到了驗(yàn)證。
RoboArena 的評(píng)測任務(wù)由研究員隨機(jī)指定,沒有固定題庫。在眾多測試項(xiàng)目中," 將玩具水豚放入餐盤 " 和 " 打開筆記本 " 兩個(gè)任務(wù),較為典型地體現(xiàn)了 Spirit v1.6 的能力。它們分別對(duì)應(yīng)具身智能里的兩類典型難題:開放環(huán)境中的目標(biāo)識(shí)別與操作執(zhí)行,以及精細(xì)力控。
任務(wù)一:將玩具水豚放置到餐盤。Spirit v1.6 VS Pi0.5。
任務(wù)中,桌面中央擺放著一個(gè)餐盤,周圍散落著筆、杯子、足球玩具、膠棒等多種物品。
Spirit v1.6 準(zhǔn)確識(shí)別出玩具水豚,完成抓取并將其放入盤中。Pi0.5 則識(shí)別錯(cuò)誤,抓取了綠色杯子,且定位不準(zhǔn),反復(fù)嘗試仍失敗。

差異背后是模型對(duì)場景語義的理解深度不同。千尋的模型能夠理解 " 水豚 " 這一語義概念,區(qū)分干擾物,并在雜亂環(huán)境中保持抓取穩(wěn)定性;Pi0.5 則在目標(biāo)識(shí)別階段就出現(xiàn)偏差。
任務(wù)二:打開筆記本。Spirit v1.6 VS Cosmos 3
這屬于物體操作與精細(xì)力控任務(wù),涉及受力點(diǎn)判斷、開合角度控制和連續(xù)動(dòng)作規(guī)劃。筆記本開合處較薄,機(jī)器人需要準(zhǔn)確找到能夠施力的位置,還要控制好力度和角度,避免物體滑動(dòng)導(dǎo)致操作失敗。
Spirit v1.6 成功完成整個(gè)打開過程。英偉達(dá)最新發(fā)布的 Cosmos 3 則多次嘗試翻開,始終未能成功。

值得注意的是,Spirit v1.6 的測試環(huán)境中還擺放著杯子、毛巾、蔬果等多種干擾物,而 Cosmos 3 的環(huán)境相對(duì)簡單,干擾物較少。
千尋的模型在受力點(diǎn)判斷、實(shí)時(shí)力控和任務(wù)理解上更勝一籌,Cosmos 3 則沒能定位到筆記本準(zhǔn)確的開合位置,缺乏精細(xì)的閉環(huán)調(diào)節(jié)。
回看 RoboChallenge,千尋 Spirit v1.5 在插花、桌面清理等任務(wù)中同樣表現(xiàn)出色。插花需要精細(xì)力度控制,桌面清理涉及多物體分類與連續(xù)操作,模型均能穩(wěn)定完成。
RoboArena 榜單更新后,有人將千尋擊敗英偉達(dá)和 PI 視為一次 " 爆冷 "。不過,仔細(xì)觀察過去半年千尋的發(fā)展軌跡,了解其連續(xù)登頂 RoboChallenge 和 RoboArena 兩大評(píng)測體系后,就能夠理解這種領(lǐng)先其實(shí)不能單純用偶然來解釋。
千尋用對(duì)手制定的規(guī)則,在對(duì)手的主場實(shí)現(xiàn) " 兩連冠 ",說明Spirit 的優(yōu)勢并非來自針對(duì)性優(yōu)化,而是模型能力本身的提升。Spirit 在環(huán)境理解、目標(biāo)識(shí)別、動(dòng)作規(guī)劃和執(zhí)行穩(wěn)定性方面展現(xiàn)出更強(qiáng)的一致性整個(gè)決策鏈條更加完整。
03
千尋真正的底牌,不在榜單上
Spirit v1.6 的登頂,是千尋技術(shù)實(shí)力的最佳證明。這種實(shí)力已經(jīng)轉(zhuǎn)化為資本市場的吸金力。
今年,千尋三個(gè)月融資四輪,刷新了具身智能行業(yè)融資速度記錄,已累計(jì)融資近 50 億元。資金將用于具身基座模型研發(fā)、數(shù)據(jù)體系建設(shè)、場景規(guī)?;虡I(yè)落地三大方面。
從投資陣容看,千尋的股東已經(jīng)是夢之隊(duì)級(jí)別,包含順為、云鋒等頂級(jí)的財(cái)務(wù) VC,國際美元基金這類海外資本,石溪資本、兆易創(chuàng)新等實(shí)業(yè)產(chǎn)業(yè)資本。
不同的股東能形成各自助力,財(cái)務(wù) VC 擅長資本運(yùn)作與投后賦能,美元基金對(duì)技術(shù)路線的判斷更偏向全球視野,利于海外市場拓展;產(chǎn)業(yè)戰(zhàn)略投資方則提供供應(yīng)鏈、場景等核心資源。
據(jù) AI 科技評(píng)論了解,資本市場普遍認(rèn)為,千尋智能近期連續(xù)落地多輪大額融資,是硬科技獨(dú)角獸上市前的戰(zhàn)略鋪路布局。
市場之所以給予這樣的判斷,在于千尋已經(jīng)具備了硬科技企業(yè)走向資本市場所需要的基礎(chǔ):技術(shù)閉環(huán)與商業(yè)閉環(huán)。
一個(gè)廣泛共識(shí)是,具身智能的 Scaling Law 正在遭遇真實(shí)世界數(shù)據(jù)不足的挑戰(zhàn)。高質(zhì)量、規(guī)?;?、可持續(xù)獲取的數(shù)據(jù),已經(jīng)成為決定模型能力上限的關(guān)鍵變量。
圍繞這一問題,千尋構(gòu)建了一套完整的" 數(shù)據(jù)金字塔 "技術(shù)戰(zhàn)略:底層依托互聯(lián)網(wǎng)通用視頻完成預(yù)訓(xùn)練,中層利用可穿戴設(shè)備采集的真實(shí)交互數(shù)據(jù)進(jìn)行專項(xiàng)迭代,頂層則通過實(shí)際落地場景產(chǎn)生的數(shù)據(jù)持續(xù)優(yōu)化模型表現(xiàn)。

設(shè)備實(shí)現(xiàn)了全身關(guān)節(jié)、手部力觸覺多維度信息同步采集,無需搭建實(shí)驗(yàn)室環(huán)境,可直接在真實(shí)工業(yè)、居家、零售場景作業(yè)。

解決采集成本問題只是第一步。對(duì)于具身公司而言,更大的挑戰(zhàn)在于如何持續(xù)、穩(wěn)定地獲得海量真實(shí)世界數(shù)據(jù)。
為此,千尋進(jìn)一步搭建起一套分布式數(shù)據(jù)超級(jí)工廠體系,組建了國內(nèi)規(guī)模最大的真實(shí)數(shù)據(jù)采集團(tuán)隊(duì),近千臺(tái)可穿戴設(shè)備分布在 100 多個(gè)城市同步采集數(shù)據(jù),并形成了覆蓋采集、清洗、標(biāo)注和質(zhì)檢的數(shù)據(jù)閉環(huán)處理流程。
采用分布式布局,是因?yàn)閱我坏攸c(diǎn)采集的數(shù)據(jù)場景單一、物品單一,無法覆蓋真實(shí)世界的多樣性。分布式采集網(wǎng)絡(luò)可以在不同城市、不同場景同時(shí)進(jìn)行,大幅提升數(shù)據(jù)的場景覆蓋度和品類豐富度。
2026 年,千尋計(jì)劃將數(shù)據(jù)規(guī)模拓展至 100 萬小時(shí)。
千尋的數(shù)據(jù)訓(xùn)練理念也極為獨(dú)特,他們十分看重 " 臟數(shù)據(jù) "。
在很多訓(xùn)練體系中,異常數(shù)據(jù)會(huì)被盡可能清理掉。而千尋認(rèn)為,真實(shí)世界本身充滿噪聲。機(jī)器人未來面對(duì)的環(huán)境,本來就不完美。因此保留一定比例復(fù)雜數(shù)據(jù)、異常數(shù)據(jù)和失敗數(shù)據(jù),反而有助于提升模型泛化能力。
在千尋看來,多數(shù)玩家仍在使用 " 溫室數(shù)據(jù) ",導(dǎo)致模型一出實(shí)驗(yàn)室就水土不服。臟數(shù)據(jù)的訓(xùn)練理念,刻意保留了一部分 " 不標(biāo)準(zhǔn)答案 ",能夠讓千尋的模型在真實(shí)社會(huì)中長大,泛化能力天然更強(qiáng)。
這種思路也與 RoboArena 的評(píng)測邏輯高度一致。RoboArena 考察的,也正是模型面對(duì)不確定因素時(shí)的適應(yīng)能力。
數(shù)據(jù)飛輪能否真正轉(zhuǎn)起來,最終還要看機(jī)器人能否進(jìn)入真實(shí)場景。千尋的機(jī)器人已經(jīng)進(jìn)入寧德時(shí)代的產(chǎn)線、京東的門店、博世的全球工廠等場景,大量真實(shí)落地場景為千尋提供了美國企業(yè)難以獲取的數(shù)據(jù)礦。此外,千尋還開展了全球化合作與生態(tài)建設(shè)。

04
中國具身智能企業(yè),正在成為技術(shù)定義者
此次千尋登頂?shù)囊饬x,不僅屬于一家企業(yè),也屬于整個(gè)中國具身智能產(chǎn)業(yè)的發(fā)展進(jìn)程。
行業(yè)的一個(gè)普遍認(rèn)知是,美國負(fù)責(zé)定義具身智能技術(shù),中國負(fù)責(zé)制造機(jī)器人。如今,這種分工正在發(fā)生變化。
千尋在 RoboArena 這個(gè)由美國頂尖機(jī)構(gòu)設(shè)計(jì)、長期由美國公司主導(dǎo)的擂臺(tái)上擊敗了主場霸主,證明中國團(tuán)隊(duì)在具身模型層面同樣具備全球頂尖的競爭力。
這是中國具身智能從 " 制造優(yōu)勢 " 向 " 技術(shù)話語權(quán) " 延伸的關(guān)鍵一步。以千尋為代表的中國戰(zhàn)隊(duì),用硬橋硬馬的真功夫打出了一波漂亮的攻守轉(zhuǎn)換。

中國企業(yè)也在用場景紅利和工程能力,實(shí)現(xiàn)從追趕到并跑的質(zhì)變。
模型可以通過迭代持續(xù)進(jìn)步,榜單排名也會(huì)不斷刷新,但真實(shí)場景中的能力沉淀很難被短期復(fù)制。數(shù)據(jù)如何獲取、場景如何進(jìn)入、模型如何迭代、產(chǎn)品如何落地,這些問題都是行業(yè)發(fā)展的重要命題,而千尋智能已經(jīng)在這場長跑中,率先卡住了身位。
隨著具身智能行業(yè)的發(fā)展,實(shí)戰(zhàn)能力會(huì)取代論文數(shù)量成為新的評(píng)判標(biāo)準(zhǔn),場景數(shù)據(jù)會(huì)成為比參數(shù)規(guī)模更寶貴的資產(chǎn),中國具身智能的全球化領(lǐng)跑,才剛剛開始。(雷峰網(wǎng))