
這并非倉(cāng)促之舉。三人的能力結(jié)構(gòu)恰好形成互補(bǔ),覆蓋了具身智能數(shù)據(jù)賽道最核心的三類(lèi)能力,底層技術(shù)架構(gòu)、機(jī)器人算法理解與產(chǎn)業(yè)落地協(xié)同。
CEO 楊哲軒曾是 PingCAP 早期核心成員,長(zhǎng)期從事大規(guī)模分布式系統(tǒng)和底層架構(gòu)設(shè)計(jì),也有連續(xù)創(chuàng)業(yè)和商業(yè)化經(jīng)驗(yàn),負(fù)責(zé)公司整體技術(shù)路線與業(yè)務(wù)推進(jìn);CTO 徐良威深耕機(jī)器人與算法領(lǐng)域多年,擁有從軟硬件系統(tǒng)到具身模型訓(xùn)練的復(fù)合背景;COO 張計(jì)業(yè),前華為地市總經(jīng)理,曾擔(dān)任具身智能公司穹徹智能生態(tài)負(fù)責(zé)人,負(fù)責(zé)智域基石的行業(yè)落地與合作拓展。
三人形成共識(shí):" 隨著機(jī)器人硬件、本體能力和具身模型不斷進(jìn)步,行業(yè)真正稀缺的,不再是拿到多少原始數(shù)據(jù),而是把物理世界的混沌信息轉(zhuǎn)化為機(jī)器人可用訓(xùn)練語(yǔ)料的能力。"
這一判斷很快得到了驗(yàn)證。靈初智能、穹徹智能、浙江人形、智平方,四家具身智能公司幾乎同時(shí)找到了他們,對(duì)其完成數(shù)千萬(wàn)元天使輪,并成為他們的首批客戶。
未來(lái)智域基石計(jì)劃在全國(guó)建立起面積超一萬(wàn)平方的真機(jī)數(shù)據(jù)采集工廠,工廠中機(jī)器人數(shù)量超 400 臺(tái)、異構(gòu)硬件形態(tài)超 10 種。專注具身智能數(shù)據(jù),將機(jī)器人傳感器采集的海量、雜亂數(shù)據(jù),自動(dòng)化地 " 編譯 " 成能直接提升任務(wù)成功率的高質(zhì)量訓(xùn)練輸入。
然而具身智能的數(shù)據(jù)遠(yuǎn)比想象中復(fù)雜。
仿真數(shù)據(jù)、真機(jī)數(shù)據(jù)、第一視角數(shù)據(jù)等不同來(lái)源的數(shù)據(jù),如何完成質(zhì)檢、時(shí)空對(duì)齊、語(yǔ)義抽取與智能檢索?全量質(zhì)檢的成本如何控制?數(shù)據(jù)編譯與自動(dòng)駕駛數(shù)據(jù)清洗的本質(zhì)區(qū)別是什么?帶著這些問(wèn)題,我們與楊哲軒、徐良威展開(kāi)了一場(chǎng)深度對(duì)話。
以下為與楊哲軒、徐良威的對(duì)話全文,略有刪減:
智客 ZhiKer:為什么會(huì)決定成立一家專門(mén)做具身數(shù)據(jù)的公司?
楊哲軒:2024 年,我們?nèi)齻€(gè)人進(jìn)入具身行業(yè)后,形成一個(gè)共識(shí)的判斷:當(dāng)硬件、本體和算法不斷進(jìn)步之后,行業(yè)下一個(gè)大的浪潮將出現(xiàn)在具身智能數(shù)據(jù)這一細(xì)分領(lǐng)域。
此外,我們也觀察到具身智能與大語(yǔ)言模型、傳統(tǒng)視覺(jué)任務(wù)、自動(dòng)駕駛存在本質(zhì)差異。
機(jī)器人面對(duì)的是真實(shí)、連續(xù)、動(dòng)態(tài)的物理世界,不僅要 " 看懂 " 環(huán)境,更要 " 做成 " 動(dòng)作。這一過(guò)程中,數(shù)據(jù)并非單一模態(tài)或簡(jiǎn)單標(biāo)簽,而是跨越視覺(jué)、力覺(jué)、狀態(tài)、動(dòng)作、時(shí)間與空間的復(fù)合體。
因?yàn)槲覀冋J(rèn)為,在物理世界、本體系統(tǒng)和上層模型之間,應(yīng)該存在一個(gè)專門(mén)處理具身數(shù)據(jù)的新層級(jí)。智域基石要做的正是這一層級(jí)的基礎(chǔ)設(shè)施,將海量、異構(gòu)、非標(biāo)準(zhǔn)的原始數(shù)據(jù),編譯成面向任務(wù)成功率的高質(zhì)量訓(xùn)練輸入。
公司英文名 ArcheBase 里的 "Arche",在希臘語(yǔ)里有 " 開(kāi)始 "" 元初 " 的意思。我們想表達(dá)的是,數(shù)據(jù)不是附屬環(huán)節(jié),而是一切智能開(kāi)始的起點(diǎn)。
智客 ZhiKer:你怎么看具身智能數(shù)據(jù)公司的核心壁壘?
楊哲軒:我一直認(rèn)為,這個(gè)行業(yè)真正的壁壘不在于 " 拿到多少原始數(shù)據(jù) ",而在于是否具備完整的數(shù)據(jù)煉化能力。
這里的 " 煉化 " 并非傳統(tǒng)意義上的數(shù)據(jù)清洗,而是一整套圍繞具身任務(wù)展開(kāi)的數(shù)據(jù)工程能力,包括數(shù)據(jù)接入、質(zhì)量評(píng)估、去噪、切片、時(shí)空對(duì)齊、語(yǔ)義抽取、動(dòng)作映射、訓(xùn)練適配、評(píng)測(cè)反饋、私有化部署等多個(gè)環(huán)節(jié)。
具身智能最大的特點(diǎn)是數(shù)據(jù)天然非標(biāo)準(zhǔn)化。不同機(jī)器人本體、不同傳感器、不同任務(wù)場(chǎng)景、不同采集方式,都會(huì)帶來(lái)巨大的差異。如果沒(méi)有一套系統(tǒng)化的方法把這些數(shù)據(jù)處理成統(tǒng)一、可復(fù)用、可驗(yàn)證的形式,那么原始數(shù)據(jù)再多,也很難穩(wěn)定進(jìn)入訓(xùn)練閉環(huán)。
智客 ZhiKer:" 數(shù)據(jù)編譯 " 具體怎么做?
徐良威:我們內(nèi)部把定義為,把真實(shí)場(chǎng)景中的非標(biāo)準(zhǔn)數(shù)據(jù),轉(zhuǎn)化為具身模型和機(jī)器人系統(tǒng)可直接使用的數(shù)據(jù)資產(chǎn)。
這件事不是單一步驟,而是一條完整的自動(dòng)化管線,目前分為五個(gè)環(huán)節(jié)。
第一,數(shù)據(jù)質(zhì)檢。這是整個(gè)流程的入口。機(jī)器人采集的數(shù)據(jù)天然復(fù)雜,攝像頭、IMU、關(guān)節(jié)狀態(tài)、力控信號(hào)等都可能出現(xiàn)丟幀、漂移、同步誤差或質(zhì)量不穩(wěn)定的問(wèn)題。
所以原始數(shù)據(jù)進(jìn)入系統(tǒng)后,首先要做 " 來(lái)料檢測(cè) ",判斷哪些樣本滿足基本要求,哪些樣本需要修正,哪些不適合進(jìn)入后續(xù)流程。
很多人會(huì)把 " 有數(shù)據(jù) " 直接等同于 " 可訓(xùn)練 ",但在具身場(chǎng)景里,未經(jīng)處理的原始數(shù)據(jù)中,真正能直接進(jìn)入訓(xùn)練閉環(huán)的比例通常是有限的。前置質(zhì)檢的意義,就是盡量把后續(xù)算力用在有效樣本上。
第二,數(shù)據(jù)底座重構(gòu)。具身數(shù)據(jù)不是單幀圖片,而是連續(xù)時(shí)間序列數(shù)據(jù)。它不僅要表達(dá) " 這一刻看到了什么 ",還要表達(dá) " 這段時(shí)間發(fā)生了什么、動(dòng)作是怎么形成的 "。
這時(shí)最關(guān)鍵的是兩件事,時(shí)間對(duì)齊和空間對(duì)齊。
時(shí)間對(duì)齊解決的是不同頻率傳感器如何落到同一個(gè)時(shí)間基準(zhǔn)上。比如攝像頭可能是 30Hz,IMU 可能是 500Hz,機(jī)器人關(guān)節(jié)狀態(tài)又是另一種刷新頻率。
空間對(duì)齊解決的是機(jī)器人本體、末端執(zhí)行器、操作物體和環(huán)境,如何被統(tǒng)一到同一個(gè)物理坐標(biāo)系里。
只有完成這一步,原本分散的數(shù)據(jù)流才會(huì)變成一個(gè)可計(jì)算、可關(guān)聯(lián)的整體。
第三,數(shù)據(jù)編譯。完成質(zhì)檢和時(shí)空對(duì)齊之后,數(shù)據(jù)還只是 " 結(jié)構(gòu)化了 ",但不代表 " 可直接訓(xùn)練 "。所謂編譯就是把底層物理信息進(jìn)一步轉(zhuǎn)成任務(wù)層可用特征。
以 " 拿起杯子 " 這一動(dòng)作為例,不能僅停留在 " 左手拿起一個(gè)杯子 " 的語(yǔ)言描述層面。我們還需補(bǔ)充,杯子相對(duì)于桌面的空間位置、周?chē)矬w分布、抓取前后的狀態(tài)變化、動(dòng)作意圖、接觸穩(wěn)定性、任務(wù)目標(biāo)等信息。
此外,還有很多關(guān)鍵特征并不是原始數(shù)據(jù)直接給出的,而是需要從多種信號(hào)中推理出來(lái),例如末端執(zhí)行器軌跡、接觸狀態(tài)、動(dòng)作階段切分、任務(wù)成功與失敗片段等。這些都屬于 " 編譯 " 過(guò)程生成的結(jié)果。
第四,智能檢索與組配。當(dāng)數(shù)據(jù)規(guī)模上來(lái)之后,下游客戶真正需要的并非整池原始樣本,而是能快速篩選出 " 某類(lèi)任務(wù)、某類(lèi)場(chǎng)景、某類(lèi)物體、某種動(dòng)作模式 " 的數(shù)據(jù)子集。
所以我們自研了查詢引擎,希望以更接近工程語(yǔ)言的方式,從海量物理數(shù)據(jù)里檢索技能、場(chǎng)景和動(dòng)作片段,再按訓(xùn)練目標(biāo)去組配數(shù)據(jù)集。
比如,倉(cāng)儲(chǔ)場(chǎng)景更關(guān)注貨架揀選,家庭服務(wù)場(chǎng)景更關(guān)注廚房操作,工業(yè)場(chǎng)景更關(guān)注重復(fù)性工序。不同任務(wù)對(duì)數(shù)據(jù)的需求結(jié)構(gòu)是完全不同的。
第五,標(biāo)準(zhǔn)化打包與彈性交付。將數(shù)據(jù)從 " 工程處理中間態(tài) " 轉(zhuǎn)化為真正可用的 " 成品 "。這意味著數(shù)據(jù)不僅要可訓(xùn)練,還需可評(píng)測(cè)、可追溯、可復(fù)用,并能適配不同客戶的訓(xùn)練棧、評(píng)測(cè)棧與部署環(huán)境。
從原料到成品的過(guò)程,如果沒(méi)有標(biāo)準(zhǔn)化和彈性交付,數(shù)據(jù)就很難形成真正的商業(yè)價(jià)值。
智客 ZhiKer:很多公司做的是抽檢,你們?yōu)槭裁磮?jiān)持做全量質(zhì)量控制?成本如何平衡?
徐良威:首先,做質(zhì)檢的前提不是 " 看得更細(xì) ",而是 " 先定義清楚什么是好數(shù)據(jù) "。
不管是和合作伙伴共建數(shù)據(jù),還是按照我們自己的標(biāo)準(zhǔn)產(chǎn)出數(shù)據(jù),第一步都要先把規(guī)則說(shuō)清楚,什么樣的數(shù)據(jù)適合進(jìn)入訓(xùn)練,什么樣的數(shù)據(jù)只適合做評(píng)測(cè),什么樣的數(shù)據(jù)應(yīng)該被剔除。
其次,質(zhì)檢本質(zhì)上是一種計(jì)算過(guò)程,背后是數(shù)據(jù)處理與邏輯校驗(yàn)。我們?cè)诘讓蛹軜?gòu)上采用的是云原生分布式方式,把大任務(wù)拆成更細(xì)粒度的計(jì)算單元,在更合適的資源上運(yùn)行。這和很多依賴重資源、重人工的方法不一樣。
再者,我們會(huì)綜合使用啟發(fā)式規(guī)則、大模型校驗(yàn)、硬件綁定和自動(dòng)化調(diào)度等方式,盡可能減少人工參與。
從結(jié)果上看,全量質(zhì)檢不是為了 " 做得更重 ",而是為了讓整個(gè)鏈條更可控。
具身智能的數(shù)據(jù)一旦進(jìn)入訓(xùn)練閉環(huán),前面一個(gè)小問(wèn)題,后面可能就會(huì)變成大成本。與其把問(wèn)題留到模型階段,不如前置解決。
智客 ZhiKer:仿真數(shù)據(jù)、真機(jī)數(shù)據(jù)、第一視角數(shù)據(jù),這些不同來(lái)源的數(shù)據(jù)都能被你們處理嗎?
徐良威:從技術(shù)上來(lái)說(shuō),各類(lèi)數(shù)據(jù)都可以接入統(tǒng)一的數(shù)據(jù)工程體系。但從價(jià)值密度來(lái)看,我們現(xiàn)階段的重點(diǎn)是真實(shí)物理世界的數(shù)據(jù)。
因?yàn)榫呱碇悄茏罱K要落地于真實(shí)場(chǎng)景。仿真數(shù)據(jù)、互聯(lián)網(wǎng)視頻、第一視角數(shù)據(jù)固然重要,但更多是承擔(dān)補(bǔ)充、預(yù)訓(xùn)練或泛化增強(qiáng)的角色。真正決定機(jī)器人能否在現(xiàn)場(chǎng)穩(wěn)定完成任務(wù)的,依然是與真實(shí)世界充分對(duì)齊的數(shù)據(jù)。
楊哲軒:真實(shí)物理數(shù)據(jù)本身也有層次之分。既包括機(jī)器人本體運(yùn)行的數(shù)據(jù),也包括人通過(guò)手持設(shè)備或第一視角設(shè)備采集的數(shù)據(jù),還包括環(huán)境側(cè)數(shù)據(jù)。
我們目前一方面處理基于機(jī)器人遙操作的真實(shí)數(shù)據(jù),另一方面也在推進(jìn)自研的 ego-centric 設(shè)備。
原因在于,模型預(yù)訓(xùn)練與后訓(xùn)練所需的數(shù)據(jù)結(jié)構(gòu)并不相同。
預(yù)訓(xùn)練階段更強(qiáng)調(diào)廣覆蓋、多場(chǎng)景、多技能,幫助模型建立對(duì)物理世界的基礎(chǔ)理解;后訓(xùn)練階段則更聚焦特定本體、特定任務(wù)、特定場(chǎng)景下的閉環(huán)優(yōu)化。只有前端采集足夠完整,后端才能通過(guò)編譯能力,將其轉(zhuǎn)化為不同階段真正需要的數(shù)據(jù)形態(tài)。
智客 ZhiKer:具身模型公司和數(shù)據(jù)公司都在自研第一人稱視(ego-centric)的數(shù)采集設(shè)備?這是重復(fù)造輪子嗎?
楊哲軒:我覺(jué)得兩者邏輯不一樣。
模型公司自研設(shè)備,通常是出于模型 know-how、訓(xùn)練配方和數(shù)據(jù)方法的保密考量,希望將核心鏈路掌握在自己手中,這無(wú)可厚非。數(shù)據(jù)公司做第一視角設(shè)備,出發(fā)點(diǎn)則是獲取更完整、更穩(wěn)定、更可復(fù)用的原始信息,為后續(xù)的數(shù)據(jù)編譯提供充足空間。
對(duì)我們來(lái)說(shuō),設(shè)備并非終點(diǎn),而是數(shù)據(jù)入口的延伸。只有在采集階段完整記錄,人在真實(shí)世界中如何感知、決策與操作的全過(guò)程,后續(xù)的數(shù)據(jù)工程才能充分開(kāi)展重構(gòu)、對(duì)齊、抽取與編譯。
徐良威:我們看 ego-centric 設(shè)備有兩個(gè)核心維度。
第一是本體感知的完整性。即從人的第一視角出發(fā),盡可能記錄視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)等多模態(tài)信號(hào),以及動(dòng)作執(zhí)行過(guò)程中的完整反饋。
第二是環(huán)境關(guān)系的完整性。任何動(dòng)作都不是孤立發(fā)生的,而是嵌入在 " 人—工具—物體—環(huán)境 " 的關(guān)系網(wǎng)絡(luò)中。設(shè)備需要盡可能還原這種關(guān)系,而非僅捕捉局部畫(huà)面。
此外,這類(lèi)設(shè)備還必須滿足時(shí)間同步、模態(tài)完整、佩戴舒適與長(zhǎng)期穩(wěn)定等基礎(chǔ)條件。唯有如此,采集的數(shù)據(jù)才真正具備價(jià)值。
智客 ZhiKer:你們說(shuō)的數(shù)據(jù)編譯和自動(dòng)駕駛里的數(shù)據(jù)處理,最核心的區(qū)別是什么?
楊哲軒:我認(rèn)為最本質(zhì)的區(qū)別有兩個(gè)。
第一,末端執(zhí)行的復(fù)雜度不同。自動(dòng)駕駛的控制目標(biāo)相對(duì)集中,核心是方向、速度與制動(dòng);具身智能則面對(duì)更豐富的末端執(zhí)行系統(tǒng),如機(jī)械臂、夾爪、移動(dòng)底盤(pán)乃至多自由度協(xié)同。本體狀態(tài)變化更為復(fù)雜,動(dòng)作空間也大得多。
第二,任務(wù)與場(chǎng)景的多樣性更高。自動(dòng)駕駛主要圍繞 " 駕駛 " 這一核心任務(wù)展開(kāi),場(chǎng)景雖復(fù)雜,但目標(biāo)相對(duì)統(tǒng)一;具身智能則可能覆蓋家居、工業(yè)、物流、零售、康養(yǎng)等完全不同的場(chǎng)景,每個(gè)場(chǎng)景背后又包含大量差異化的技能、任務(wù)鏈路與動(dòng)作模式。
因此,如果說(shuō)自動(dòng)駕駛更多是在相對(duì)標(biāo)準(zhǔn)化的框架內(nèi)做數(shù)據(jù)工程,具身智能面對(duì)的則是一個(gè)更非標(biāo)準(zhǔn)、更開(kāi)放、更具多層次耦合的數(shù)據(jù)問(wèn)題。
徐良威:從技術(shù)實(shí)現(xiàn)來(lái)看,過(guò)去許多 AI 任務(wù)處理的數(shù)據(jù)類(lèi)型相對(duì)單一,線性處理管道即可解決大部分問(wèn)題。但具身智能不同,它同時(shí)涉及多模態(tài)信號(hào)、時(shí)間序列、空間關(guān)系與任務(wù)語(yǔ)義,且不同任務(wù)之間并無(wú)統(tǒng)一模板。
正因如此,我們更傾向于用 " 數(shù)據(jù)編譯 " 而非簡(jiǎn)單的 " 數(shù)據(jù)清洗 " 來(lái)描述這項(xiàng)工作。
智客 ZhiKer:你怎么看未來(lái)兩年具身智能大模型的演進(jìn)方向?
楊哲軒:我認(rèn)為至少有六個(gè)明確趨勢(shì)。
第一,VLA 仍將為主線。具身智能越來(lái)越呈現(xiàn) " 模型能力 " 與 " 機(jī)器人系統(tǒng)能力 " 的融合特征,而非單純的控制問(wèn)題。視覺(jué)、語(yǔ)言與動(dòng)作的統(tǒng)一建模,仍將是行業(yè)主路徑。
第二,多源數(shù)據(jù)混合訓(xùn)練成為標(biāo)配。未來(lái)領(lǐng)先的系統(tǒng)大概率不會(huì)依賴單一數(shù)據(jù)來(lái)源,而是整合互聯(lián)網(wǎng)視頻、第一視角數(shù)據(jù)、遙操作數(shù)據(jù)、仿真數(shù)據(jù)與真實(shí)閉環(huán)數(shù)據(jù),各自承擔(dān)不同角色。
第三,高質(zhì)量數(shù)據(jù)工程與評(píng)測(cè)體系成為關(guān)鍵壁壘。真正的挑戰(zhàn)不在于 " 收集數(shù)據(jù) ",而在于知道如何篩選、切片、構(gòu)造課程學(xué)習(xí)、利用失敗樣本,并建立穩(wěn)定的評(píng)測(cè)閉環(huán)。未來(lái)競(jìng)爭(zhēng)不僅體現(xiàn)在模型結(jié)構(gòu),更體現(xiàn)在數(shù)據(jù)工程與評(píng)測(cè)工程能力上。
第四,系統(tǒng)能力從 " 單次成功 " 轉(zhuǎn)向 " 持續(xù)穩(wěn)定 "。真正能落地的機(jī)器人并非永不犯錯(cuò),而是發(fā)生偏差后能夠恢復(fù)、糾正并長(zhǎng)期穩(wěn)定運(yùn)行?;謴?fù)能力與長(zhǎng)期穩(wěn)定性將愈發(fā)重要。
第五,本地化訓(xùn)練與私有化部署加速。尤其在 B 端場(chǎng)景,高價(jià)值數(shù)據(jù)越來(lái)越難以完全離開(kāi)現(xiàn)場(chǎng)。未來(lái)能夠支持邊界內(nèi)訓(xùn)練、私有化部署與可審計(jì)流程的基礎(chǔ)設(shè)施,將更具現(xiàn)實(shí)價(jià)值。
第六,數(shù)據(jù)資產(chǎn)的定義被重寫(xiě)。未來(lái)最有價(jià)值的,不再是 " 擁有多少視頻、多少軌跡 ",而是 " 知道哪些數(shù)據(jù)有效、如何跨本體遷移、如何利用失敗片段、如何將一次項(xiàng)目沉淀為下一次更快的交付能力 "。數(shù)據(jù)價(jià)值正從 " 量 " 轉(zhuǎn)向 " 質(zhì) " 與 " 復(fù)用效率 "。(作者|郭虹妘,編輯|楊林)