從產(chǎn)生創(chuàng)業(yè)想法到正式成立智域基石,楊哲軒、徐良威和張計業(yè)只用了一個月。
這并非倉促之舉。三人的能力結(jié)構(gòu)恰好形成互補,覆蓋了具身智能數(shù)據(jù)賽道最核心的三類能力,底層技術(shù)架構(gòu)、機器人算法理解與產(chǎn)業(yè)落地協(xié)同。
CEO 楊哲軒曾是 PingCAP 早期核心成員,長期從事大規(guī)模分布式系統(tǒng)和底層架構(gòu)設計,也有連續(xù)創(chuàng)業(yè)和商業(yè)化經(jīng)驗,負責公司整體技術(shù)路線與業(yè)務推進;CTO 徐良威深耕機器人與算法領(lǐng)域多年,擁有從軟硬件系統(tǒng)到具身模型訓練的復合背景;COO 張計業(yè),前華為地市總經(jīng)理,曾擔任具身智能公司穹徹智能生態(tài)負責人,負責智域基石的行業(yè)落地與合作拓展。
三人形成共識:" 隨著機器人硬件、本體能力和具身模型不斷進步,行業(yè)真正稀缺的,不再是拿到多少原始數(shù)據(jù),而是把物理世界的混沌信息轉(zhuǎn)化為機器人可用訓練語料的能力。"
這一判斷很快得到了驗證。靈初智能、穹徹智能、浙江人形、智平方,四家具身智能公司幾乎同時找到了他們,對其完成數(shù)千萬元天使輪,并成為他們的首批客戶。
未來智域基石計劃在全國建立起面積超一萬平方的真機數(shù)據(jù)采集工廠,工廠中機器人數(shù)量超 400 臺、異構(gòu)硬件形態(tài)超 10 種。專注具身智能數(shù)據(jù),將機器人傳感器采集的海量、雜亂數(shù)據(jù),自動化地 " 編譯 " 成能直接提升任務成功率的高質(zhì)量訓練輸入。
然而具身智能的數(shù)據(jù)遠比想象中復雜。
仿真數(shù)據(jù)、真機數(shù)據(jù)、第一視角數(shù)據(jù)等不同來源的數(shù)據(jù),如何完成質(zhì)檢、時空對齊、語義抽取與智能檢索?全量質(zhì)檢的成本如何控制?數(shù)據(jù)編譯與自動駕駛數(shù)據(jù)清洗的本質(zhì)區(qū)別是什么?帶著這些問題,我們與楊哲軒、徐良威展開了一場深度對話。
以下為與楊哲軒、徐良威的對話全文,略有刪減:
智客 ZhiKer:為什么會決定成立一家專門做具身數(shù)據(jù)的公司?
楊哲軒:2024 年,我們?nèi)齻€人進入具身行業(yè)后,形成一個共識的判斷:當硬件、本體和算法不斷進步之后,行業(yè)下一個大的浪潮將出現(xiàn)在具身智能數(shù)據(jù)這一細分領(lǐng)域。
此外,我們也觀察到具身智能與大語言模型、傳統(tǒng)視覺任務、自動駕駛存在本質(zhì)差異。
機器人面對的是真實、連續(xù)、動態(tài)的物理世界,不僅要 " 看懂 " 環(huán)境,更要 " 做成 " 動作。這一過程中,數(shù)據(jù)并非單一模態(tài)或簡單標簽,而是跨越視覺、力覺、狀態(tài)、動作、時間與空間的復合體。
因為我們認為,在物理世界、本體系統(tǒng)和上層模型之間,應該存在一個專門處理具身數(shù)據(jù)的新層級。智域基石要做的正是這一層級的基礎(chǔ)設施,將海量、異構(gòu)、非標準的原始數(shù)據(jù),編譯成面向任務成功率的高質(zhì)量訓練輸入。
公司英文名 ArcheBase 里的 "Arche",在希臘語里有 " 開始 "" 元初 " 的意思。我們想表達的是,數(shù)據(jù)不是附屬環(huán)節(jié),而是一切智能開始的起點。
智客 ZhiKer:你怎么看具身智能數(shù)據(jù)公司的核心壁壘?
楊哲軒:我一直認為,這個行業(yè)真正的壁壘不在于 " 拿到多少原始數(shù)據(jù) ",而在于是否具備完整的數(shù)據(jù)煉化能力。
這里的 " 煉化 " 并非傳統(tǒng)意義上的數(shù)據(jù)清洗,而是一整套圍繞具身任務展開的數(shù)據(jù)工程能力,包括數(shù)據(jù)接入、質(zhì)量評估、去噪、切片、時空對齊、語義抽取、動作映射、訓練適配、評測反饋、私有化部署等多個環(huán)節(jié)。
具身智能最大的特點是數(shù)據(jù)天然非標準化。不同機器人本體、不同傳感器、不同任務場景、不同采集方式,都會帶來巨大的差異。如果沒有一套系統(tǒng)化的方法把這些數(shù)據(jù)處理成統(tǒng)一、可復用、可驗證的形式,那么原始數(shù)據(jù)再多,也很難穩(wěn)定進入訓練閉環(huán)。
智客 ZhiKer:" 數(shù)據(jù)編譯 " 具體怎么做?
徐良威:我們內(nèi)部把定義為,把真實場景中的非標準數(shù)據(jù),轉(zhuǎn)化為具身模型和機器人系統(tǒng)可直接使用的數(shù)據(jù)資產(chǎn)。
這件事不是單一步驟,而是一條完整的自動化管線,目前分為五個環(huán)節(jié)。
第一,數(shù)據(jù)質(zhì)檢。這是整個流程的入口。機器人采集的數(shù)據(jù)天然復雜,攝像頭、IMU、關(guān)節(jié)狀態(tài)、力控信號等都可能出現(xiàn)丟幀、漂移、同步誤差或質(zhì)量不穩(wěn)定的問題。
所以原始數(shù)據(jù)進入系統(tǒng)后,首先要做 " 來料檢測 ",判斷哪些樣本滿足基本要求,哪些樣本需要修正,哪些不適合進入后續(xù)流程。
很多人會把 " 有數(shù)據(jù) " 直接等同于 " 可訓練 ",但在具身場景里,未經(jīng)處理的原始數(shù)據(jù)中,真正能直接進入訓練閉環(huán)的比例通常是有限的。前置質(zhì)檢的意義,就是盡量把后續(xù)算力用在有效樣本上。
第二,數(shù)據(jù)底座重構(gòu)。具身數(shù)據(jù)不是單幀圖片,而是連續(xù)時間序列數(shù)據(jù)。它不僅要表達 " 這一刻看到了什么 ",還要表達 " 這段時間發(fā)生了什么、動作是怎么形成的 "。
這時最關(guān)鍵的是兩件事,時間對齊和空間對齊。
時間對齊解決的是不同頻率傳感器如何落到同一個時間基準上。比如攝像頭可能是 30Hz,IMU 可能是 500Hz,機器人關(guān)節(jié)狀態(tài)又是另一種刷新頻率。
空間對齊解決的是機器人本體、末端執(zhí)行器、操作物體和環(huán)境,如何被統(tǒng)一到同一個物理坐標系里。
只有完成這一步,原本分散的數(shù)據(jù)流才會變成一個可計算、可關(guān)聯(lián)的整體。
第三,數(shù)據(jù)編譯。完成質(zhì)檢和時空對齊之后,數(shù)據(jù)還只是 " 結(jié)構(gòu)化了 ",但不代表 " 可直接訓練 "。所謂編譯就是把底層物理信息進一步轉(zhuǎn)成任務層可用特征。
以 " 拿起杯子 " 這一動作為例,不能僅停留在 " 左手拿起一個杯子 " 的語言描述層面。我們還需補充,杯子相對于桌面的空間位置、周圍物體分布、抓取前后的狀態(tài)變化、動作意圖、接觸穩(wěn)定性、任務目標等信息。
此外,還有很多關(guān)鍵特征并不是原始數(shù)據(jù)直接給出的,而是需要從多種信號中推理出來,例如末端執(zhí)行器軌跡、接觸狀態(tài)、動作階段切分、任務成功與失敗片段等。這些都屬于 " 編譯 " 過程生成的結(jié)果。
第四,智能檢索與組配。當數(shù)據(jù)規(guī)模上來之后,下游客戶真正需要的并非整池原始樣本,而是能快速篩選出 " 某類任務、某類場景、某類物體、某種動作模式 " 的數(shù)據(jù)子集。
所以我們自研了查詢引擎,希望以更接近工程語言的方式,從海量物理數(shù)據(jù)里檢索技能、場景和動作片段,再按訓練目標去組配數(shù)據(jù)集。
比如,倉儲場景更關(guān)注貨架揀選,家庭服務場景更關(guān)注廚房操作,工業(yè)場景更關(guān)注重復性工序。不同任務對數(shù)據(jù)的需求結(jié)構(gòu)是完全不同的。
第五,標準化打包與彈性交付。將數(shù)據(jù)從 " 工程處理中間態(tài) " 轉(zhuǎn)化為真正可用的 " 成品 "。這意味著數(shù)據(jù)不僅要可訓練,還需可評測、可追溯、可復用,并能適配不同客戶的訓練棧、評測棧與部署環(huán)境。
從原料到成品的過程,如果沒有標準化和彈性交付,數(shù)據(jù)就很難形成真正的商業(yè)價值。
智客 ZhiKer:很多公司做的是抽檢,你們?yōu)槭裁磮猿肿鋈抠|(zhì)量控制?成本如何平衡?
徐良威:首先,做質(zhì)檢的前提不是 " 看得更細 ",而是 " 先定義清楚什么是好數(shù)據(jù) "。
不管是和合作伙伴共建數(shù)據(jù),還是按照我們自己的標準產(chǎn)出數(shù)據(jù),第一步都要先把規(guī)則說清楚,什么樣的數(shù)據(jù)適合進入訓練,什么樣的數(shù)據(jù)只適合做評測,什么樣的數(shù)據(jù)應該被剔除。
其次,質(zhì)檢本質(zhì)上是一種計算過程,背后是數(shù)據(jù)處理與邏輯校驗。我們在底層架構(gòu)上采用的是云原生分布式方式,把大任務拆成更細粒度的計算單元,在更合適的資源上運行。這和很多依賴重資源、重人工的方法不一樣。
再者,我們會綜合使用啟發(fā)式規(guī)則、大模型校驗、硬件綁定和自動化調(diào)度等方式,盡可能減少人工參與。
從結(jié)果上看,全量質(zhì)檢不是為了 " 做得更重 ",而是為了讓整個鏈條更可控。
具身智能的數(shù)據(jù)一旦進入訓練閉環(huán),前面一個小問題,后面可能就會變成大成本。與其把問題留到模型階段,不如前置解決。
智客 ZhiKer:仿真數(shù)據(jù)、真機數(shù)據(jù)、第一視角數(shù)據(jù),這些不同來源的數(shù)據(jù)都能被你們處理嗎?
徐良威:從技術(shù)上來說,各類數(shù)據(jù)都可以接入統(tǒng)一的數(shù)據(jù)工程體系。但從價值密度來看,我們現(xiàn)階段的重點是真實物理世界的數(shù)據(jù)。
因為具身智能最終要落地于真實場景。仿真數(shù)據(jù)、互聯(lián)網(wǎng)視頻、第一視角數(shù)據(jù)固然重要,但更多是承擔補充、預訓練或泛化增強的角色。真正決定機器人能否在現(xiàn)場穩(wěn)定完成任務的,依然是與真實世界充分對齊的數(shù)據(jù)。
楊哲軒:真實物理數(shù)據(jù)本身也有層次之分。既包括機器人本體運行的數(shù)據(jù),也包括人通過手持設備或第一視角設備采集的數(shù)據(jù),還包括環(huán)境側(cè)數(shù)據(jù)。
我們目前一方面處理基于機器人遙操作的真實數(shù)據(jù),另一方面也在推進自研的 ego-centric 設備。
原因在于,模型預訓練與后訓練所需的數(shù)據(jù)結(jié)構(gòu)并不相同。
預訓練階段更強調(diào)廣覆蓋、多場景、多技能,幫助模型建立對物理世界的基礎(chǔ)理解;后訓練階段則更聚焦特定本體、特定任務、特定場景下的閉環(huán)優(yōu)化。只有前端采集足夠完整,后端才能通過編譯能力,將其轉(zhuǎn)化為不同階段真正需要的數(shù)據(jù)形態(tài)。
智客 ZhiKer:具身模型公司和數(shù)據(jù)公司都在自研第一人稱視(ego-centric)的數(shù)采集設備?這是重復造輪子嗎?
楊哲軒:我覺得兩者邏輯不一樣。
模型公司自研設備,通常是出于模型 know-how、訓練配方和數(shù)據(jù)方法的保密考量,希望將核心鏈路掌握在自己手中,這無可厚非。數(shù)據(jù)公司做第一視角設備,出發(fā)點則是獲取更完整、更穩(wěn)定、更可復用的原始信息,為后續(xù)的數(shù)據(jù)編譯提供充足空間。
對我們來說,設備并非終點,而是數(shù)據(jù)入口的延伸。只有在采集階段完整記錄,人在真實世界中如何感知、決策與操作的全過程,后續(xù)的數(shù)據(jù)工程才能充分開展重構(gòu)、對齊、抽取與編譯。
徐良威:我們看 ego-centric 設備有兩個核心維度。
第一是本體感知的完整性。即從人的第一視角出發(fā),盡可能記錄視覺、聽覺、觸覺等多模態(tài)信號,以及動作執(zhí)行過程中的完整反饋。
第二是環(huán)境關(guān)系的完整性。任何動作都不是孤立發(fā)生的,而是嵌入在 " 人—工具—物體—環(huán)境 " 的關(guān)系網(wǎng)絡中。設備需要盡可能還原這種關(guān)系,而非僅捕捉局部畫面。
此外,這類設備還必須滿足時間同步、模態(tài)完整、佩戴舒適與長期穩(wěn)定等基礎(chǔ)條件。唯有如此,采集的數(shù)據(jù)才真正具備價值。
智客 ZhiKer:你們說的數(shù)據(jù)編譯和自動駕駛里的數(shù)據(jù)處理,最核心的區(qū)別是什么?
楊哲軒:我認為最本質(zhì)的區(qū)別有兩個。
第一,末端執(zhí)行的復雜度不同。自動駕駛的控制目標相對集中,核心是方向、速度與制動;具身智能則面對更豐富的末端執(zhí)行系統(tǒng),如機械臂、夾爪、移動底盤乃至多自由度協(xié)同。本體狀態(tài)變化更為復雜,動作空間也大得多。
第二,任務與場景的多樣性更高。自動駕駛主要圍繞 " 駕駛 " 這一核心任務展開,場景雖復雜,但目標相對統(tǒng)一;具身智能則可能覆蓋家居、工業(yè)、物流、零售、康養(yǎng)等完全不同的場景,每個場景背后又包含大量差異化的技能、任務鏈路與動作模式。
因此,如果說自動駕駛更多是在相對標準化的框架內(nèi)做數(shù)據(jù)工程,具身智能面對的則是一個更非標準、更開放、更具多層次耦合的數(shù)據(jù)問題。
徐良威:從技術(shù)實現(xiàn)來看,過去許多 AI 任務處理的數(shù)據(jù)類型相對單一,線性處理管道即可解決大部分問題。但具身智能不同,它同時涉及多模態(tài)信號、時間序列、空間關(guān)系與任務語義,且不同任務之間并無統(tǒng)一模板。
正因如此,我們更傾向于用 " 數(shù)據(jù)編譯 " 而非簡單的 " 數(shù)據(jù)清洗 " 來描述這項工作。
智客 ZhiKer:你怎么看未來兩年具身智能大模型的演進方向?
楊哲軒:我認為至少有六個明確趨勢。
第一,VLA 仍將為主線。具身智能越來越呈現(xiàn) " 模型能力 " 與 " 機器人系統(tǒng)能力 " 的融合特征,而非單純的控制問題。視覺、語言與動作的統(tǒng)一建模,仍將是行業(yè)主路徑。
第二,多源數(shù)據(jù)混合訓練成為標配。未來領(lǐng)先的系統(tǒng)大概率不會依賴單一數(shù)據(jù)來源,而是整合互聯(lián)網(wǎng)視頻、第一視角數(shù)據(jù)、遙操作數(shù)據(jù)、仿真數(shù)據(jù)與真實閉環(huán)數(shù)據(jù),各自承擔不同角色。
第三,高質(zhì)量數(shù)據(jù)工程與評測體系成為關(guān)鍵壁壘。真正的挑戰(zhàn)不在于 " 收集數(shù)據(jù) ",而在于知道如何篩選、切片、構(gòu)造課程學習、利用失敗樣本,并建立穩(wěn)定的評測閉環(huán)。未來競爭不僅體現(xiàn)在模型結(jié)構(gòu),更體現(xiàn)在數(shù)據(jù)工程與評測工程能力上。
第四,系統(tǒng)能力從 " 單次成功 " 轉(zhuǎn)向 " 持續(xù)穩(wěn)定 "。真正能落地的機器人并非永不犯錯,而是發(fā)生偏差后能夠恢復、糾正并長期穩(wěn)定運行?;謴湍芰εc長期穩(wěn)定性將愈發(fā)重要。
第五,本地化訓練與私有化部署加速。尤其在 B 端場景,高價值數(shù)據(jù)越來越難以完全離開現(xiàn)場。未來能夠支持邊界內(nèi)訓練、私有化部署與可審計流程的基礎(chǔ)設施,將更具現(xiàn)實價值。
第六,數(shù)據(jù)資產(chǎn)的定義被重寫。未來最有價值的,不再是 " 擁有多少視頻、多少軌跡 ",而是 " 知道哪些數(shù)據(jù)有效、如何跨本體遷移、如何利用失敗片段、如何將一次項目沉淀為下一次更快的交付能力 "。數(shù)據(jù)價值正從 " 量 " 轉(zhuǎn)向 " 質(zhì) " 與 " 復用效率 "。(作者|郭虹妘,編輯|楊林)