电竞比分网-中国电竞赛事及体育赛事平台

關(guān)于ZAKER Skills 合作
雷鋒網(wǎng) 21小時前

對話橋介數(shù)物尚陽星:機(jī)器人運動能力,遠(yuǎn)遠(yuǎn)沒有被解決

全身運動數(shù)據(jù)的重要性,被低估了。

作者丨向 欣

編輯丨高景輝

雷峰網(wǎng)報道:機(jī)器人進(jìn)入真實世界 " 干活 ",到底需要什么數(shù)據(jù)?

面對這個問題,大多數(shù)具身智能從業(yè)者可能都會回答 " 操作 "。的確,人們干活離不開雙手,那么人形機(jī)器人的末端精細(xì)操作數(shù)據(jù),順理成章地成了重中之重。

但橋介數(shù)物創(chuàng)始人尚陽星,給出了一個截然不同的答案。

在他看來,機(jī)器人全身運動數(shù)據(jù)的重要性被大大低估了,機(jī)器人想進(jìn)入真實環(huán)境完成復(fù)雜任務(wù),僅靠操作能力遠(yuǎn)遠(yuǎn)不夠,底層的全身運動能力才是基礎(chǔ)。

他做了一個比喻:如果把機(jī)器人類比成電腦,運動控制能力相當(dāng)于操作系統(tǒng)的內(nèi)核,操作模型則是應(yīng)用軟件。沒了底層系統(tǒng),應(yīng)用就無法運行。

也就是說,缺少高質(zhì)量的運動數(shù)據(jù)和全身運動模型,機(jī)器人將難以適應(yīng)不同地形、應(yīng)對突發(fā)擾動,實現(xiàn)長時間穩(wěn)定運行和落地。

基于這個判斷,橋介數(shù)物在半年前啟動了" 跨本體全身運動數(shù)據(jù)工廠 "的建設(shè),并于近期正式投入使用。

橋介將他們采集的數(shù)據(jù)定義為跨本體全身運動數(shù)據(jù)(Cross-Embodiment Whole-Body Motion Data),簡稱CWM。

CWM 包含人體全身動作、第一人稱和第三人稱視角視頻、語義標(biāo)簽、環(huán)境信息以及接觸與物理狀態(tài)信息,是一種多模態(tài)數(shù)據(jù),用于訓(xùn)練通用的全身運動模型,最大的亮點是具備跨本體能力。

有了數(shù)據(jù)工廠,深耕運動控制基礎(chǔ)設(shè)施,橋介數(shù)物想構(gòu)建一個人形機(jī)器人的通用操作系統(tǒng),類似于尚陽星早些時候在中國移動具身智能產(chǎn)業(yè)大會上提出的 Runtime Robot OS(運行時機(jī)器人操作系統(tǒng))。

簡單來說,這是一套通用的底層運動能力基礎(chǔ)設(shè)施,讓不同機(jī)器人復(fù)用同一套運動模型,新機(jī)型接入后,也無需再為大量動作重復(fù)訓(xùn)練。

橋介的定位也隨之發(fā)生變化,由具身小腦廠商,成長為具身智能基礎(chǔ)設(shè)施公司。不過在某種意義上,這其實是一種回歸,尚陽星說:" 從創(chuàng)業(yè)開始,我想做的就是機(jī)器人時代的基礎(chǔ)設(shè)施。"

01

運動泛化,仍是人形機(jī)器人的難題

▎ AI 科技評論:現(xiàn)在機(jī)器人 Demo 已經(jīng)能跑能跳能越障了,看起來全身運動已經(jīng)算不上核心瓶頸,為什么你們還要做運動數(shù)據(jù)工廠?

尚陽星:目前能看到的機(jī)器人運動視頻,基本都是針對特定場景調(diào)出來的。例如春晚的機(jī)器人,七八個工程師花三四個月才能完成一個表演,換個場景就不行了。

這里的核心問題是運動泛化能力差。我們理解的泛化,是讓一套系統(tǒng)適應(yīng)不同地形、不同機(jī)型、不同動作,在復(fù)雜環(huán)境中長期穩(wěn)定運行?,F(xiàn)在還沒有機(jī)器人能做到這一點。

我們之前給客戶做運動控制,用的雖是通用框架,但還需針對性適配。建數(shù)據(jù)工廠,就是為了訓(xùn)練出真正通用的底層運動模型,讓機(jī)器人能擁有像人類一樣的運動能力,而這件事目前遠(yuǎn)遠(yuǎn)沒有被解決。

AI 科技評論:真實環(huán)境里,機(jī)器人最容易在哪些地方出問題?

尚陽星:首先是感知問題,當(dāng)前機(jī)器人的感知是被動的,就像人閉著眼睛走路,所以遇到意外時反應(yīng)很劇烈,人流密集時存在安全隱患。最近也有些公司發(fā)布了機(jī)器人的語言交互 demo,但這種理解都比較淺,沒有對真實外部世界的理解。

其次是長期運行問題。長時間運行后,關(guān)節(jié)出現(xiàn)磨損、性能變化時,機(jī)器人很難像人類受傷后那樣繼續(xù)調(diào)整動作并適應(yīng)環(huán)境,持續(xù)學(xué)習(xí)與自我補(bǔ)償能力仍然不足。這都是我們會著力解決的方向。

AI 科技評論:做通用的底層運動模型,對具身智能落地有實質(zhì)性價值嗎?

尚陽星:行業(yè)大多僅聚焦人形機(jī)器人上半身控制,往后要實現(xiàn)機(jī)器人全身協(xié)同作業(yè),就必須搭建通用全身運動控制基礎(chǔ)模型。依托這套模型,手部動作操作模型可直接部署應(yīng)用,不用重復(fù)解決全身運動適配難題。

AI 科技評論:機(jī)器人全身運動能力那么重要,為什么行業(yè)不太重視運動數(shù)據(jù),反而都聚焦上半身控制,去采集操作數(shù)據(jù)了?

尚陽星:因為疊衣服、端咖啡、擰螺絲這些操作類任務(wù)成果直觀,價值容易被看見。

機(jī)器人的運動能力可以視為 Windows、iOS 這些底層的基礎(chǔ)運行系統(tǒng),操作能力則相當(dāng)于系統(tǒng)之上的各種 APP。如果沒了底層系統(tǒng),所有應(yīng)用都無法運行。

機(jī)器人也一樣,沒有穩(wěn)定的全身運動能力,復(fù)雜操作只能局限在固定桌面,無法真正落地。

市場需要大家多做應(yīng)用,但也需要有人做基礎(chǔ)設(shè)施?;A(chǔ)設(shè)施平時不被注意,一壞就出問題;做好了卻不容易被察覺,但非常重要。

AI 科技評論:為什么不去外面買數(shù)據(jù),而是選擇自建數(shù)據(jù)工廠?

尚陽星:三個原因。一是市面上買不到高質(zhì)量的運動控制數(shù)據(jù),賣這類數(shù)據(jù)的人極少,而且價格貴。國內(nèi)專注于運動控制且特別重視這件事的,可能只有橋介。我們內(nèi)部之前也有用動捕設(shè)備采集,但進(jìn)度很慢,需要更加工業(yè)化、規(guī)?;牟杉侄?。

二是我們發(fā)現(xiàn)過去數(shù)據(jù)都有很強(qiáng)的 " 本體綁定 " 問題。機(jī)型變了數(shù)據(jù)就沒法用了,遷移能力很差。我們需要更多無本體的數(shù)據(jù),促進(jìn)模型快速迭代。

三是我們發(fā)現(xiàn)數(shù)據(jù)量越多,全身運動基礎(chǔ)模型表現(xiàn)越好。這不僅是我們在工作過程中發(fā)現(xiàn)的規(guī)律,英偉達(dá)在一個項目中也提到了這個觀點,數(shù)據(jù)規(guī)模越大,模型效果會更好。英偉達(dá)開源了數(shù)百小時的運動數(shù)據(jù),不過這個量級離上限還差得很遠(yuǎn)。既然發(fā)現(xiàn)這個領(lǐng)域也存在 Scaling Law ,我們就下定決心投入了。

AI 科技評論:最近大家都在談世界模型,很多人認(rèn)為它會成為機(jī)器人理解物理世界的關(guān)鍵能力。橋介也會往這個方向布局嗎?

尚陽星:我們也在訓(xùn)練動作層面的世界模型。訓(xùn)練世界模型本身也需要大量數(shù)據(jù),視頻是其中重要的一類。不過,世界模型可以接受任何形式的視頻,但在處理動作這個維度上,需要做一些特殊處理。

02

人形機(jī)器人,會比四足更先落地

AI 科技評論:你們是怎么采集數(shù)據(jù)的?

尚陽星:我們的數(shù)據(jù)工廠使用動捕 + 視頻(包括第一人稱和第三人稱)方式,采集后還會人為標(biāo)注語義標(biāo)簽。

我們采集的是人類全身運動數(shù)據(jù),包括手部和全身的動作,一開始會從不涉及精細(xì)操作的全身動作入手。這類數(shù)據(jù)可以和行業(yè)現(xiàn)有的操作數(shù)據(jù)配合使用,是一種補(bǔ)充。

AI 科技評論:為什么要選擇這種采集方式?這會比行業(yè)主流的方式更好嗎?

尚陽星:優(yōu)勢在于兩點。一是無本體,數(shù)據(jù)可以跨本體遷移,且采集更為簡單。很多廠商采用遙操作,數(shù)據(jù)和本體強(qiáng)綁定,復(fù)用性較差,而且還需要人去適應(yīng)機(jī)器人,動捕不需要。

二是數(shù)據(jù)精度更高?,F(xiàn)在很多人體數(shù)據(jù)依賴視頻提取,全身動作還原精度有限。要采集高精度、高質(zhì)量的全身人體動作,目前只有全身動捕這一種方法。這些高精度數(shù)據(jù)后續(xù)也能用于訓(xùn)練視頻動作提取模型。

AI 科技評論:去年開始行業(yè)開始流行無本體采集方案,UMI 就很受歡迎,為什么不用這種成本更低且簡易的方案?

尚陽星:UMI 本質(zhì)上是去掉機(jī)器人本體,只保留末端執(zhí)行器,用夾爪和相機(jī)采集數(shù)據(jù)。問題在于,如果用夾爪采集,以后本體上的夾爪無法換成其他執(zhí)行器,靈活性也比人手差,而且視頻提取的人體全身動作精度也不夠高。

后來行業(yè)開始轉(zhuǎn)向采集人體數(shù)據(jù),因為人體數(shù)據(jù)更通用,不會綁定某一個機(jī)器人。

新的問題是,人和機(jī)器人結(jié)構(gòu)不同,不同機(jī)器人之間也有差異,所以人體動作還需要經(jīng)過重定向和適配。因此我們特別強(qiáng)調(diào)跨本體能力。

AI 科技評論:你們的跨本體是如何實現(xiàn)的,有技術(shù)壁壘嗎?

尚陽星: 遷移中涉及的核心技術(shù)是重定向。我們做了一套自己的重定向引擎,可以自動適配不同機(jī)器人構(gòu)型、動作和地形,還支持邊采集邊重定向。

行業(yè)很多重定向方案只考慮運動學(xué),就是只復(fù)現(xiàn)運動軌跡,我們還加入了動力學(xué),會同時考慮重力、受力和平衡問題。一般的數(shù)據(jù)工廠都不會做到這一步。這也屬于我們的技術(shù)優(yōu)勢。

比如人跳起來是一條拋物線,如果機(jī)器人只是照著軌跡模仿,很容易落地失敗。加入動力學(xué)后,它會結(jié)合自身結(jié)構(gòu)和受力情況調(diào)整動作,更符合真實物理規(guī)律。

AI 科技評論:在數(shù)據(jù)遷移過程中,哪些構(gòu)型的機(jī)器人更容易遷移,哪些更難?

尚陽星:橋介采集的是人類數(shù)據(jù),因此主要面向與人類形態(tài)最接近的雙足人形機(jī)器人。機(jī)器人的形態(tài)與人越像,數(shù)據(jù)遷移越容易;越不像則越難。

AI 科技評論:為什么不選落地更容易的四足狗或者輪足人形做運動控制?很多人覺得,四足狗加個機(jī)械臂比人形落地更快、成本更低,輪足在很多場景也夠用了。

尚陽星:輪足在特定場景確實夠用,但如果目標(biāo)是物理世界的 AGI,就需要更通用的形態(tài),也就是雙足人形。

至于落地,我有個非共識的看法:人形機(jī)器人會比四足更先落地。

這有點像大語言模型。語言能力其實是人類后演化出來的,但因為互聯(lián)網(wǎng)文本數(shù)據(jù)足夠多,所以它反而最先突破。機(jī)器人運動也是一樣,過去運動數(shù)據(jù)沒人系統(tǒng)記錄,但現(xiàn)在如果開始大規(guī)模采集,可能也會很快突破。

03

做數(shù)據(jù)工廠,最難的不是采集

AI 科技評論:你們收集的全身運動數(shù)據(jù)不涉及精細(xì)操作,未來要怎么和市面上的操作數(shù)據(jù)融合?

尚陽星:我覺得不會有融合問題,或者說我們會把融合做好。我們更傾向于分層式架構(gòu):上層負(fù)責(zé)認(rèn)知和任務(wù)理解,底層負(fù)責(zé)實時運動控制,而橋介提供的是底層運動控制模型。

原因是認(rèn)知模型體量大、推理慢,運動控制模型則對實時性和安全性要求很高,兩者很難用同一個模型兼顧。Figure 的具身模型就是多個系統(tǒng)。

未來機(jī)器人行業(yè)也會像操作系統(tǒng)和應(yīng)用軟件一樣,形成更明確的軟件分工。

AI 科技評論:這其中有個很大的問題是行業(yè)數(shù)據(jù)格式不統(tǒng)一,你們怎么處理?

尚陽星:現(xiàn)在行業(yè)的數(shù)據(jù)格式,大多沿用了影視動畫行業(yè)的體系,所以標(biāo)準(zhǔn)并沒有特別混亂。

出現(xiàn)這個問題的原因之一就是數(shù)據(jù)和本體強(qiáng)綁定,應(yīng)該采集無本體數(shù)據(jù),現(xiàn)在這已經(jīng)是大趨勢。

AI 科技評論:做數(shù)據(jù)工廠,最難的環(huán)節(jié)是什么?

尚陽星:數(shù)據(jù)處理、數(shù)據(jù)閉環(huán)是最難的。

大規(guī)模數(shù)據(jù)需要完整的數(shù)據(jù)管線,解決調(diào)配、算力處理等問題。數(shù)據(jù)工廠還要跑通 " 設(shè)計—采集—處理—訓(xùn)練—反饋 " 的完整閉環(huán),背后涉及大量系統(tǒng)協(xié)同和流程管理。

其中采集環(huán)節(jié)是成本最高的,反饋環(huán)節(jié)決定數(shù)據(jù)有效性。單純動作采集難度不高,花錢配齊設(shè)備就能做,難的是后續(xù)整體運營與統(tǒng)籌管理。

AI 科技評論:你們怎么定義高質(zhì)量運動數(shù)據(jù),數(shù)據(jù)質(zhì)量又如何保障?

尚陽星:高質(zhì)量數(shù)據(jù)首先要噪聲小、軌跡穩(wěn)定,動作姿態(tài)自然,不能出現(xiàn)肢體穿插、穿透等異常情況。

數(shù)據(jù)質(zhì)量主要取決于錄制方式和動捕設(shè)備精度。動捕設(shè)備直接錄制的數(shù)據(jù)精度高、質(zhì)量好;從視頻提取的數(shù)據(jù)精度就差不少。

因此在源頭環(huán)節(jié),就得高精度動捕設(shè)備做標(biāo)準(zhǔn)化采集,我們設(shè)計了涵蓋動作分類、質(zhì)量權(quán)重、標(biāo)簽維度、環(huán)境參數(shù)、位姿信息及質(zhì)檢標(biāo)準(zhǔn)在內(nèi)的準(zhǔn)入體系。

但設(shè)備本身存在局限,難免出現(xiàn)異常數(shù)據(jù),所以采集完成后會經(jīng)過人工核驗,程序自動篩選環(huán)節(jié),通過自研管線完成跨本體的數(shù)據(jù)清洗、動作重定向等等,就連訓(xùn)練階段也會再次篩查。

最后,訓(xùn)練結(jié)果還會反向指導(dǎo)數(shù)據(jù)采集。比如哪些動作效果不好、哪些場景覆蓋不夠,都會反饋給采集端,用來調(diào)整下一輪的數(shù)據(jù)采集方向,形成持續(xù)優(yōu)化的數(shù)據(jù)閉環(huán)。

AI 科技評論:行業(yè)有種觀點是臟數(shù)據(jù)也有用,你們也會收集這類數(shù)據(jù)嗎?

大家說的臟數(shù)據(jù),應(yīng)該是指機(jī)器人執(zhí)行任務(wù)失利后恢復(fù)的數(shù)據(jù),比如摔倒后自主起身,這類數(shù)據(jù)很有采集價值。

而低質(zhì)量數(shù)據(jù),是采集時因設(shè)備故障等問題錄出來本身就是錯誤失常的動作數(shù)據(jù),這類數(shù)據(jù)沒有用處,不需要留存。

AI 科技評論:同時滿足高質(zhì)量和大規(guī)模兩個要求一直是具身數(shù)據(jù)領(lǐng)域的難題,橋介是怎么平衡數(shù)據(jù)規(guī)模和數(shù)據(jù)質(zhì)量的?

尚陽星: 先用一小批有一定規(guī)模、高質(zhì)量的數(shù)據(jù)訓(xùn)練模型,再用該模型從視頻中挖掘更大規(guī)模的數(shù)據(jù),相互增強(qiáng)。

視頻包含了一切信息,只是目前提取不出來。就像自動駕駛,視頻里可能包含深度信息,但模型能力不夠就提取不了,需要視頻與深度的配對數(shù)據(jù)訓(xùn)練模型。

機(jī)器人同理,視頻包含大量人體動作信息,人看視頻就能學(xué)會,但當(dāng)前從視頻中提取這些信息的基礎(chǔ)設(shè)施還沒建好。

AI 科技評論:訓(xùn)練過程中會用仿真數(shù)據(jù)嗎?

尚陽星:會,而且仿真數(shù)據(jù)是必須的。人體數(shù)據(jù)經(jīng)過重定向后,機(jī)器人還需要在仿真環(huán)境里做強(qiáng)化學(xué)習(xí)訓(xùn)練,用來彌補(bǔ)人體動作和機(jī)器人實際執(zhí)行之間的差距。

離開數(shù)據(jù)工廠后的復(fù)雜環(huán)境適應(yīng),本質(zhì)上也依賴強(qiáng)化學(xué)習(xí)來完成泛化。

AI 科技評論:使用的真實數(shù)據(jù)和仿真數(shù)據(jù)的比例是多少?

尚陽星:仿真數(shù)據(jù)會比真實數(shù)據(jù)多好幾個量級。

04

我們的最終目標(biāo),是做機(jī)器人的基礎(chǔ)設(shè)施

AI 科技評論:現(xiàn)在數(shù)據(jù)工廠處于什么階段?

尚陽星:已經(jīng)跑通了所有流程,在產(chǎn)能爬坡階段。過去三個月,我們在內(nèi)部試點中跑通了跨本體全身運動數(shù)據(jù)工廠的端到端鏈路,累計產(chǎn)出了近千小時高質(zhì)量 CWM 數(shù)據(jù),數(shù)據(jù)訓(xùn)練出的模型在十多款不同足式機(jī)器人上完成了驗證。

我們規(guī)劃今年內(nèi)一天采集數(shù)十個小時的數(shù)據(jù),一個月就是數(shù)千小時。今年預(yù)計會收集上萬小時的數(shù)據(jù)。

AI 科技評論:這些數(shù)據(jù)會帶來哪些提升?未來會開放給行業(yè)嗎?

尚陽星:主要是我們模型泛化能力的提升,特別是不同動作之間的泛化。目前機(jī)器人跳不高或做不好極端動作,補(bǔ)充更多數(shù)據(jù)后就能學(xué)會。

我們的數(shù)據(jù)主要服務(wù)于內(nèi)部模型訓(xùn)練,不會直接給外部使用。但如果有合作方想購買數(shù)據(jù),也可以談。

AI 科技評論:具體到產(chǎn)品上,今年會拿出什么?

尚陽星:數(shù)據(jù)訓(xùn)練出來的能力,會通過我們的平臺化產(chǎn)品提供給大家。

去年更多的是非泛化的動作。今年我們重點解決兩個泛化:跨本體和跨機(jī)型。

6 月我們會推出一個革命性的產(chǎn)品,這會是歷史上第一個將機(jī)器人運動控制做成標(biāo)準(zhǔn)化方案的產(chǎn)品。

我們的設(shè)想是,未來任意機(jī)器人接入平臺后,就能快速獲得對應(yīng)運動能力,不再為每個動作重復(fù)訓(xùn)練。

比如平臺可以和機(jī)器人拳賽結(jié)合,讓用戶自由組合不同機(jī)型的技能,分力量型、速度型等不同能力,不同本體之間的比賽才更有看頭。

AI 科技評論:目前橋介在數(shù)據(jù)工廠上的投入,大概是什么量級?

尚陽星:我們采購了一批動捕設(shè)備,一套動捕設(shè)備約幾十萬元,再算上場地搭建、團(tuán)隊人員運營等成本,整體投入在千萬級別。

AI 科技評論:數(shù)據(jù)合格率高嗎?一條數(shù)據(jù)的成本是多少?

尚陽星:現(xiàn)在數(shù)據(jù)合格率可以達(dá)到90%以上。我們不按 " 條 ",按 " 小時 " 計價,因為不同數(shù)據(jù)條的時長差異很大。一小時數(shù)據(jù)的采集成本大約是幾百元,未來也會繼續(xù)降本。

AI 科技評論:如果想讓機(jī)器人真正達(dá)到接近人類的運動能力,需要多大規(guī)模的數(shù)據(jù)量?

尚陽星:大概需要幾十萬小時量級的數(shù)據(jù),人形機(jī)器人運動才會達(dá)到很好效果。這是基于人的一生約幾十萬小時推斷,但人動作有重復(fù),也不可能做遍所有動作,所以只是非常粗略的估算。

如果數(shù)據(jù)量上來,發(fā)現(xiàn)數(shù)據(jù)對模型訓(xùn)練沒用了,我們也會停止。

AI 科技評論:這么說的話,聚焦運動控制,天花板會不會很低,未來你們還會拓展其他方向嗎?

尚陽星:等到集齊足量運動數(shù)據(jù)、機(jī)器人運動能力成熟后,我們也不會止步于此。先依靠海量全身運動動捕數(shù)據(jù)打好基礎(chǔ),讓模型擁有動作組合能力,可靈活搭配不同動作完成各類任務(wù)。

后續(xù)場景類、融合感知的規(guī)劃數(shù)據(jù),可依托成熟模型從視頻中提取,覆蓋海量復(fù)雜現(xiàn)實場景。

我們的最終目標(biāo)是提供基礎(chǔ)設(shè)施,讓用戶在平臺上做組合創(chuàng)新,壁壘在于構(gòu)建應(yīng)用生態(tài)。

AI 科技評論:基礎(chǔ)設(shè)施的概念,聽起來比你們之前 " 小腦廠商 " 的定位更為宏大。

尚陽星:其實從創(chuàng)業(yè)開始,我們想做的就是通用機(jī)器人時代的基礎(chǔ)設(shè)施廠商。運動控制雖然不等于操作系統(tǒng),但是操作系統(tǒng)中很重要的一部分。橋介的長期定位是做人形機(jī)器人的操作系統(tǒng),打造生態(tài)。

AI 科技評論:之前有投資人和你說,你做硬件他們才投,現(xiàn)在他們的看法改變了嗎?

尚陽星:我們最近每天都在接待投資人,最近關(guān)閉了一輪融資,正在開啟新一輪融資。我感覺越來越多投資人都看明白了,有投資人和我直說,硬件現(xiàn)在太卷了,投了那么多家,最后能留下來的估計沒幾家。有長期價值的是底層平臺能力。(雷峰網(wǎng))

相關(guān)閱讀

最新評論

沒有更多評論了
雷峰網(wǎng)

雷峰網(wǎng)

讀懂智能&未來

訂閱

覺得文章不錯,微信掃描分享好友

掃碼分享

企業(yè)資訊

查看更多內(nèi)容