电竞比分网-中国电竞赛事及体育赛事平台

關(guān)于ZAKER 合作
量子位 16分鐘前

谷歌最強具身大腦發(fā)布!波士頓機器狗瞬間人模人樣

剛剛,Google DeepMind 發(fā)布了最新的機器人推理模型——

Gemini Robotics-ER 1.6。

搭載它的波士頓動力機器狗 Spot,現(xiàn)在能走到工廠里的壓力表前,停下來,讀出數(shù)字。精確到刻度以下。

機械臂面對操作任務(wù)時,也能判斷什么時候開始,什么時候算完成。

說起來,這已經(jīng)是 Gemini Robotics 主打空間推理的第三代模型。

九年前谷歌把波士頓動力賣掉,今年 CES 剛宣布重新合作,ER 1.6 就是這次新開始的第一個正式成果。

掌門人哈薩比斯也是第一時間轉(zhuǎn)發(fā)了。

ER 1.6 的定位是機器人的高層大腦,不直接控制機械動作,而是負責(zé)理解環(huán)境、制定計劃、調(diào)用工具——

谷歌搜索、VLA、或者開發(fā)者自己定義的任何函數(shù),都可以直接調(diào)用。

相比上一代 ER 1.5 和 Gemini 3.0 Flash,新模型在空間推理、物體計數(shù)、任務(wù)成功檢測上均有顯著提升。

還多了一個全新能力,讀儀表。

Gemini Robotics-ER 1.6

在技術(shù)博客中,Laura Graesser 和 Peng Xu 兩位作者開篇寫道:

機器人要真正有用,就必須不只是執(zhí)行指令,而是要對物理世界進行推理。

ER 1.6 的核心升級圍繞一件事,讓機器人真正「看懂」它所處的環(huán)境。

儀表識別

先看 Spot 在工廠里做的那件事。

工業(yè)設(shè)施里有大量儀器需要持續(xù)監(jiān)控,溫度計、壓力表、化學(xué)視鏡。以前 Spot 能走過去拍一張照片,但看不懂上面的數(shù)字。

ER 1.6 讓這件事變了。

模型讀儀表分三步。先放大,把小刻度看清楚;再用 Pointing 定位指針和刻度,結(jié)合代碼計算比例;最后調(diào)用世界知識,把數(shù)字解釋成有意義的讀數(shù)。

這套組合的效果,ER 1.5 的儀表識別成功率是 23%,加上 Agentic Vision 之后,ER 1.6 達到了93%

波士頓動力 Spot 副總裁Marco da Silva表示:

儀表識別等能力和更可靠的任務(wù)推理,將使 Spot 能夠完全自主地觀察、理解并應(yīng)對現(xiàn)實世界的挑戰(zhàn)。

Pointing,空間推理的基石

儀表識別能做到這一步,背后是Pointing能力的支撐。

Pointing 是 ER 模型從初代就在練的基本功。簡單說,就是讓模型用「點」來表達它對空間的理解,哪里有什么,有幾個,怎么移動,抓哪里最合適。

ER 1.5 在這一任務(wù)上表現(xiàn)不佳:給它一張工具圖,它數(shù)錯了錘子數(shù)量,漏掉了剪刀,還把圖里根本不存在的手推車給「指」了出來。

ER 1.6 則能把這些全部答對,錘子 2 把、剪刀 1 把、畫筆 1 支、鉗子 6 把,一個不差。更關(guān)鍵的是,對于圖里沒有的東西,它知道不去指。

成功檢測,知道什么時候停

ER 1.6 還有一個升級,成功檢測。

知道任務(wù)何時結(jié)束,和知道如何開始,同樣是自主性的核心。

以前的系統(tǒng),做完一個動作就算完了。但真實場景里有遮擋、有光線變化、有模糊指令,「做完了」這件事本身就需要判斷。

ER 1.6 強化了多視角推理,機器人通常有多個攝像頭,頭頂一個、手腕一個,系統(tǒng)需要把這些視角合并成一個連貫的判斷。

比如開頭的那個 demo:把藍色筆放進黑色筆筒,任務(wù)完成了嗎?

ER 1.6 能從多個角度的畫面里,給出一個可靠的答案。

順帶一提,這也是谷歌迄今最安全的機器人模型。

在對抗性空間推理任務(wù)里,ER 1.6 對安全指令的遵循程度優(yōu)于所有前代版本。

不處理液體、不搬運超過 20 公斤的物體,這類物理安全約束,ER 1.6 能通過 Pointing 等空間輸出做出更準確的判斷。

在基于真實傷害報告的安全隱患識別測試里,ER 系列比 Gemini 3.0 Flash 高出 6%(文字場景)和 10%(視頻場景)。

谷歌與波士頓動力

看到 Spot,你可能會好奇,為啥谷歌要用波士頓動力的狗?

事情是這樣的:

谷歌 2013 年收購波士頓動力,2017 年賣給軟銀,理由是看不到商業(yè)閉環(huán)。

2020 年現(xiàn)代汽車以 8.8 億美元接盤。然后 2025 年 11 月,波士頓動力的前 CTO Aaron Saunders離職,加入了谷歌 DeepMind。

2026 年 1 月 CES,兩家在現(xiàn)代汽車的發(fā)布會上宣布正式合作,目標是把 Gemini Robotics 部署到 Atlas 人形機器人上。

賣出去九年,又回來了。

哈薩比斯的說法是,谷歌不做硬件,要成為「機器人領(lǐng)域的 Android」,給所有機器人廠商提供大腦。

這次 ER 1.6 發(fā)布,署名了兩位作者,Laura GraesserPeng Xu。

Laura Graesser是牛津本科、NYU 碩士出身,2018 年加入 Google,2023 年至今在 DeepMind 做機器人研究,還合著過一本強化學(xué)習(xí)教科書《Foundations of Deep Reinforcement Learning》。

她早期的研究方向之一,是讓機器人打乒乓球,系統(tǒng)需要在 100 毫秒內(nèi)完成感知、計算和擊球動作。

Peng Xu是 DeepMind 機器人基礎(chǔ)模型方向的研究員,專注機器人學(xué)習(xí)與大模型的結(jié)合,不僅參與過上面的機器人打乒乓球,也是 RT-1、RT-2、Cap(Code as policy)、Gemini robotics 等一系列著名工作的作者之一。

參考鏈接

[ 1 ] https://deepmind.google/blog/gemini-robotics-er-1-6/

[ 2 ] https://deepmind.google/models/gemini-robotics/gemini-robotics/

一鍵三連「點贊」「轉(zhuǎn)發(fā)」「小心心」

歡迎在評論區(qū)留下你的想法!

誰會代表 2026 年的 AI?

龍蝦爆火,帶動一波 Agent 與衍生產(chǎn)品浪潮。

但真正值得長期關(guān)注的 AI 公司和產(chǎn)品,或許不止于此。

如果你正在做,或見證著這些變化,歡迎申報。

讓更多人看見你。 https://wj.qq.com/s2/25829730/09xz/

一鍵關(guān)注 點亮星標

科技前沿進展每日見

相關(guān)標簽

最新評論

沒有更多評論了

覺得文章不錯,微信掃描分享好友

掃碼分享

企業(yè)資訊

查看更多內(nèi)容