MiniMax 在搭自己的 Model + Harness 生態(tài)?
作者 : 鏡山
編輯 : Koji
排版 : NCon
今年年初,很多人本來在玩 OpenClaw,因?yàn)樗?Logo 是一只龍蝦,社區(qū)里大家都自稱「蝦農(nóng)」。結(jié)果 Hermes Agent 一出,OpenClaw 的熱度肉眼可見地開始往另一邊轉(zhuǎn)移。
一時(shí)間,社交媒體上到處都是「養(yǎng)馬」的截圖。Hermes Agent 被叫作「愛馬仕 Agent」,GitHub 短時(shí)間內(nèi)沖到近十萬星?!肝r農(nóng)」們開始變成「馬主」。
在大家現(xiàn)在聊的詞中,多了一個(gè)詞反復(fù)出現(xiàn):Harness,被譽(yù)為繼提示工程和上下文工程之后的「第三范式」。
Anthropic 把 Claude Code 的底層 SDK 叫 Agent Harness,OpenAI 專門發(fā)了篇講 Harness engineering 的博文,評(píng)測(cè)榜單 TerminalBench 2.0 把 Harness 質(zhì)量當(dāng)作衡量 Coding Agent 的核心變量。
這個(gè)詞,算是徹底出圈了。
視線繞回國內(nèi),MiniMax 是在往 Harness 這個(gè)方向上砸資源比較多,動(dòng)作比較頻繁的一家,試圖構(gòu)建完整的「Model + Harness」閉環(huán)。
正好在昨晚,「十字路口」團(tuán)隊(duì)與 Hermes
Agent 業(yè)務(wù)負(fù)責(zé)人 Tommy Eastman、
MiniMax Agent 首席架構(gòu)師阿島、Agent 研發(fā)工程師擇因,在 B 站做了一場(chǎng)直播。這也算是 Nous Research 在中國的首次正式亮相。
在直播中,我們?nèi)酵_(tái)聊了聊 Harness 和模型到底該怎么配合這件事。
直播現(xiàn)場(chǎng)透露出一個(gè)明顯的信號(hào):MiniMax 在 「Model + Harness」上的準(zhǔn)備,很系統(tǒng)。
這篇文章,主要想聊聊三件事:
【1】Harness 到底是什么?
【2】MiniMax 在這個(gè)方向上具體做了什么?
【3】以及,為什么這件事值得單獨(dú)拿出來說。
Harness 是什么,Model + Harness 又是什么?
先把這個(gè)概念說清楚,不然后面我們對(duì) MiniMax 的討論會(huì)缺少背景。
Harness 這個(gè)詞在 AI 領(lǐng)域其實(shí)不是新詞。
最早是從軟件工程里「test harness」的概念,一套包裹被測(cè)對(duì)象、驅(qū)動(dòng)輸入并捕獲輸出的支架代碼。 2021 年,EleutherAI 發(fā)布了一個(gè)叫 lm-evaluation-harness 的評(píng)測(cè)工具,用來標(biāo)準(zhǔn)化大模型的性能測(cè)試,后來成了 HuggingFace Open LLM Leaderboard 的后端。
但 Harness 從「評(píng)測(cè)工具」變成「Agent 框架」,中間走了一段路。
2023 年,一位叫 Beren Millidge 的研究者寫了一篇影響挺大的文章,提出了一個(gè)類比:LLM 是 CPU,上下文窗口是 RAM,外部數(shù)據(jù)庫是磁盤,工具接口是設(shè)備驅(qū)動(dòng),而包裹它的整個(gè) scaffold 相當(dāng)于操作系統(tǒng)。
核心思考就一點(diǎn):如果模型是硬件,那 Harness 就是那層操作系統(tǒng)。
這個(gè)類比后來被反復(fù)引用,奠定了后來 Harness 概念的基礎(chǔ)。
真正讓這個(gè)詞出圈的,是 2026 年年初 Mitchell Hashimoto 的一篇博文:《My AI Adoption Journey》。Hashimoto 是 Terraform 的作者,他在文章里描述了自己從 AI 懷疑者變成重度使用者的過程,其中第五步專門講了「Engineer the Harness」。
他給這個(gè)詞下了一個(gè)特別直接的定義:
每次發(fā)現(xiàn) Agent 犯了某個(gè)錯(cuò)誤,就花時(shí)間設(shè)計(jì)一個(gè)機(jī)制,讓它以后再也不會(huì)犯同樣的錯(cuò)誤。這個(gè)機(jī)制就是 Harness。
博文發(fā)布后不到兩周,OpenAI 就發(fā)布了一篇專門講 Harness engineering 的文章,Anthropic、LangChain 全面跟進(jìn)。這個(gè)詞很快在技術(shù)圈子里傳開了。
那說了這么多,到底什么是 Agent Harness?
如果用一句話來概括:
模型決定一個(gè) Agent 有多聰明,Harness 決定它能不能真正用起來,做一些實(shí)際的任務(wù)。
落到實(shí)際工程里,Harness 一般包括這幾個(gè)組件:
【1】工具調(diào)用編排,讓 Agent 能調(diào)用外部能力;
【2】記憶管理,讓 Agent 能跨會(huì)話記住重要信息;
【3】Skills 系統(tǒng),讓 Agent 能學(xué)習(xí)和積累新的工作方式;
【4】驗(yàn)證反饋循環(huán),讓 Agent 能知道自己的輸出是對(duì)還是錯(cuò)。
這四件事看起來各不相關(guān),但說到底就是一件事:給模型配上一整套運(yùn)行環(huán)境,讓它真正變成可用的 Agent。
雖然 Harness 這個(gè)詞聽起來挺虛的,但它真的能讓一個(gè) Agent 的評(píng)分發(fā)生很大變化。
LangChain 在 2026 年初做過一次實(shí)驗(yàn):在 TerminalBench 2.0 測(cè)試?yán)?,固定同一個(gè)模型(用的是 gpt-5.2-codex),只更換 Harness,工程團(tuán)隊(duì)把編碼 Agent 的得分從 52.8% 提升到了 66.5%,排名從 30 名開外直接沖到前 5。
同一個(gè)模型,換了一套運(yùn)行框架,性能提升幅度比換一代模型還大。
這件事讓很多人開始意識(shí)到:
2026 年最有杠桿效應(yīng)的工程活動(dòng),可能就是設(shè)計(jì)模型外圍的那套 Harness。
MiniMax 在搭自己的 Model + Harness 生態(tài)?
說清楚 Harness 之后,接下來一個(gè)問題就出來了:Harness 很重要,但光有 Harness 行不行?
答案是不行。
框架搭得再完善,模型調(diào)不準(zhǔn)工具、調(diào)不準(zhǔn)指令,整個(gè)系統(tǒng)還是跑不起來。所以問題變成了:Harness 重要,Model 也同樣必要,那這兩者能不能形成一個(gè)互相促進(jìn)的閉環(huán)?
框架層的需求直接反饋到模型層,模型層的進(jìn)步直接體現(xiàn)在框架層?
這個(gè)問題,國內(nèi)很多 AI 廠商都在嘗試回答。在大量摸索中,MiniMax 的動(dòng)作算是比較顯眼的。不只提供模型 API,在模型端,它做了一系列模型,包括 M2.7、在 Harness 方向,又做了 MaxClaw、MaxHermes 等,整體的方向都指向同一個(gè)點(diǎn):自己的 Model + Harness 生態(tài)。
從時(shí)間線上看,這三條線的推出節(jié)奏很有意思。
先說模型端,M2.7 今年三月剛發(fā)布。從去年 10 月到今年 3 月,108 天里連推 M2、M2.1、M2.5、M2.7 四代,這個(gè)更新節(jié)奏很迅速,但 M2.7 真正值得看的,是它的優(yōu)化方向變了,重點(diǎn)在于幾個(gè)傳統(tǒng)評(píng)測(cè)體系里不太會(huì)出現(xiàn)的指標(biāo):工具調(diào)用準(zhǔn)確度、復(fù)雜 Skills 遵循率、Agent Harness 適配能力。
我們?cè)凇?a class="normal_text_link mp_article_text_link" textvalue=" 我們用 MiniMax M2.7 改造了「十字路口」的整套內(nèi)容工作流 " data-itemshowtype="0" linktype="text" data-linktype="2" target="_blank">我們用 MiniMax M2.7 改造了「十字路口」的整套內(nèi)容工作流》一文中,實(shí)測(cè)了該模型的完整能力,用它做了多個(gè)實(shí)際生產(chǎn)力工具。
這些數(shù)字背后還有一個(gè)更核心的能力:M2.7 能自我進(jìn)化。它能自動(dòng)監(jiān)控實(shí)驗(yàn)狀態(tài)、讀取日志排查問題、執(zhí)行代碼修復(fù)、跑冒煙測(cè)試,在 RL 場(chǎng)景里能獨(dú)立完成 30% 到 50% 的工作流。
到了年初 OpenClaw 爆火的時(shí)候,MiniMax 做出了第一批云端托管版本的龍蝦—— MaxClaw。OpenClaw 的核心是 Skills 系統(tǒng)和自我進(jìn)化能力,它的創(chuàng)始人 Peter Steinberger 當(dāng)時(shí)連發(fā)推文稱贊 M2.1 模型在工具調(diào)用和性價(jià)比上的表現(xiàn)。
MaxClaw 把 OpenClaw 這套能力云端化了,保留了 Skills 精選和持續(xù)進(jìn)化的核心特性,把部署門檻降到接近零,用戶不需要懂技術(shù),直接上手用。
我們也在《當(dāng) MiniMax 遇見 OpenClaw:「1 2 3 上鏈接」》一文中,實(shí)際將 MaxClaw 部署進(jìn)了 Slack 中,并完整用它走完了「整理 CVPR 2026 的 GitHub 倉庫,定時(shí)匯報(bào)、監(jiān)控、歸類,到點(diǎn)自動(dòng)匯報(bào),更新列表,順便做分類」的工作流:
再往后 Hermes Agent 火起來的時(shí)候,MiniMax 又迅速跟進(jìn)了 MaxHermes。Hermes Agent 是 Nous Research 開源的一個(gè)自我進(jìn)化 AI Agent,MIT 協(xié)議。
它的核心能力有 2 塊:
【1】一是自進(jìn)化的 Skills 系統(tǒng),能從使用經(jīng)驗(yàn)中自動(dòng)創(chuàng)建新技能、在使用中持續(xù)改進(jìn);
【2】二是全平臺(tái)接入,能通過 Gateway 連接 15 個(gè)以上的聊天平臺(tái),包括飛書、釘釘、企業(yè)微信這類本土 IM。
Skills 自進(jìn)化架構(gòu)設(shè)計(jì)得很優(yōu)雅,但開源版本有一個(gè)繞不開的問題:需要自己搭環(huán)境、配 API Key、管理服務(wù)器,門檻攔住了很多人,這也是 MaxHermes 的位置。
MaxHermes 把整個(gè)開源版本封裝成云端服務(wù),一鍵啟動(dòng),把門檻從「需要技術(shù)背景」拉平到「會(huì)用手機(jī)就能上手」,部署完之后 Agent 直接跑在本土辦公環(huán)境里,不用自己折騰。
我們也實(shí)際上手走完了一遍完整流程,在 MiniMax Agent 官網(wǎng),只需要點(diǎn)擊一下「MaxHermes」就能直接使用:
在我們的深度使用中,發(fā)現(xiàn) MaxHermes 很適合做一些多步驟,比較復(fù)雜的任務(wù),然后再將其自動(dòng)歸納成 Skills。比如我們其實(shí)一直在往 GitHub 上上傳一些自己做的 Vibe Tools 項(xiàng)目,但是維護(hù)開源項(xiàng)目其實(shí)也是需要一些精力的,這時(shí)候就可以用 MaxHermes 幫忙做這些事。
提示詞如下;
` 我負(fù)責(zé)維護(hù)一個(gè)開源項(xiàng)目 [ XXX 的 GitHub 用戶名 ] / [ XXX 的倉庫名 ] ,` ` 希望你每周一上午幫我生成一份 " 上周倉庫運(yùn)營周報(bào) " 并發(fā)到我的 Telegram。` ` 這周先手動(dòng)跑一次,我會(huì)在過程中給你反饋,` ` 你確認(rèn)跑通后把流程沉淀成 Skill,之后每周一早上 9 點(diǎn)自動(dòng)執(zhí)行。` ` 周報(bào)需要包含以下內(nèi)容:` 1. ` 數(shù)據(jù)概覽 ` - ` 上周(周一 00:00 至周日 23:59,東八區(qū))新增 Star / Fork / Watcher 數(shù) ` - ` 對(duì)比再上一周的增長率 ` - ` 按日畫一個(gè)簡單的文本趨勢(shì)(不需要圖,用字符柱狀圖就行)` 1. `Issue 動(dòng)態(tài) ` - ` 新開 Issue 分類統(tǒng)計(jì):bug / feature request / question / 其他 ` - ` 被關(guān)閉的 Issue 中,平均響應(yīng)時(shí)間和平均關(guān)閉時(shí)間 ` - ` 列出仍 open 且超過 7 天無人響應(yīng)的 Issue,按 reaction 數(shù)排序前 5 條 ` 1. `PR 動(dòng)態(tài) ` - ` 新開 / 已合并 / 已關(guān)閉的 PR 數(shù) ` - ` 貢獻(xiàn)者列表(區(qū)分首次貢獻(xiàn)者,首次貢獻(xiàn)者要特別標(biāo)出)` - ` 合并耗時(shí)最長的 3 個(gè) PR,以及耗時(shí)最短的 3 個(gè) ` 1. ` 需要我關(guān)注的事項(xiàng) ` - ` 你判斷 " 我應(yīng)該本周處理 " 的 issue 或 PR,最多 5 條,附理由 ` - ` 如果有首次貢獻(xiàn)者,提醒我去寫感謝語 ` ` 輸出格式:Markdown,Telegram 推送時(shí)轉(zhuǎn)換為純文本排版。` ` 文件同時(shí)保存一份到 ~/reports/weekly/YYYY-WW.md 方便我歸檔。` ` 開跑吧。過程中遇到不確定的地方問我,不要瞎猜。`
MaxHermes 的流程比較快,所有內(nèi)容都會(huì)存到云服務(wù)器的目錄里,然后它會(huì)自動(dòng)將整個(gè)多步驟流程沉淀成 Skill 并設(shè)置成每周一定時(shí)執(zhí)行:
或者讓 MaxHermes 關(guān)注 Polymarket 上的熱門預(yù)測(cè)市場(chǎng),每天早上 8:30(東八區(qū)) 自動(dòng)幫我生成一份 " 昨日 Polymarket 交易日?qǐng)?bào) " 并推送到我的 Telegram。
然后,先手動(dòng)讓它跑一次,在過程里給完反饋,跑通之后, 就讓它把整套流程沉淀成 Skill:
除此之外,在「十字路口」團(tuán)隊(duì)與 MiniMax 、Hermes Agent 業(yè)務(wù)負(fù)責(zé)人的直播中,MiniMax 透露出它們內(nèi)部有個(gè)「Agent Harness」的直觀用法:內(nèi)部有一個(gè) Auto Agent 員工,可以盯住 GitHub 上可能會(huì)用到 MiniMax 模型能力的開源項(xiàng)目,如果這個(gè)項(xiàng)目出現(xiàn)并被判斷相關(guān)性很高,這個(gè) Agent 員工就會(huì)自主觸達(dá)這個(gè)項(xiàng)目的開發(fā)者,邀請(qǐng)他們體驗(yàn) MiniMax 模型或產(chǎn)品。
所以,把 M2.7、MaxClaw、MaxHermes 以及上面的這個(gè)「內(nèi)部 AI Agent 員工」放在一起看,從模型到 Harness,它們已然成為同一套體系的不同層面,這個(gè)體系就是 MiniMax 版的「Model + Harness」。
底層是 M2.7 的模型能力,工具調(diào)用準(zhǔn)、復(fù)雜指令跟得上、能自我迭代。中間層是 MaxClaw 和 MaxHermes,把 Skills 系統(tǒng)、全平臺(tái)接入、驗(yàn)證反饋這些工程能力封裝好,拿來就能用。上層是對(duì)本土 IM 生態(tài)的對(duì)接,打通了飛書、釘釘、企業(yè)微信,Agent 直接跑進(jìn)真實(shí)工作流里。
三層之間還有一個(gè)特點(diǎn)是,它們是相互加強(qiáng)的。M2.7 的模型能力為 MaxHermes 和 MaxClaw 的 Harness 提供了更扎實(shí)的底層支撐,而 MaxHermes 和 MaxClaw 在產(chǎn)品層收到的真實(shí)需求和使用反饋,又直接反饋到 M2.7 的優(yōu)化方向上。
模型層和 Harness 層不是分離的,是一起轉(zhuǎn)的。
這不只是 MiniMax 一家在做的事。就在最近,Anthropic 也發(fā)布了 Claude Managed Agents 的公測(cè)版本,把云端托管的 Agent 服務(wù)正式推向市場(chǎng)。這意味著什么?頭部公司也在往同一個(gè)方向走:模型和 Harness 不只是湊在一起跑,在同一個(gè)體系內(nèi)持續(xù)磨合、持續(xù)進(jìn)化。
這套飛輪一旦轉(zhuǎn)起來,后來者要追的,就從一個(gè)指標(biāo)變成了一整套互相咬合的體系。
這就是 MiniMax 押注的方向,也是 2026 年 AI Agent 領(lǐng)域可能真正會(huì)拉開差距的地方。
為什么這件事值得單獨(dú)說一說
一個(gè)常見的解讀是:模型能力逐漸趨同,誰能把讓模型真正跑起來這件事做好,誰就能在下一階段拿到優(yōu)勢(shì)。這個(gè)解讀有道理,但如果只看到這一層,可能還是有點(diǎn)簡單了。
更值得看的一點(diǎn)是 Harness 概念的出現(xiàn),把行業(yè)里一個(gè)原本模糊的問題變清晰了:
模型和框架之間的關(guān)系,到底應(yīng)該是怎樣的?
傳統(tǒng)做法是框架先搭好,模型塞進(jìn)去跑。這種方式問題不大,但問題在于,框架是為通用場(chǎng)景設(shè)計(jì)的,而 Agent 作為一種具體的使用形態(tài),有自己獨(dú)特的需求:工具調(diào)用要準(zhǔn)、指令遵循要穩(wěn)、長時(shí)間運(yùn)行要穩(wěn)。
這些能力通用模型不會(huì)天然就有,得專門去做。
MiniMax 在 M2.7 上做的事,說白了就是讓模型往框架需要的樣子走。這個(gè)選擇做起來并不容易,意味著模型迭代的方向要改,團(tuán)隊(duì)內(nèi)部要協(xié)調(diào)的事情也變多了。但好處是:模型和框架在同一個(gè)體系內(nèi)一起迭代,互相之間的咬合程度會(huì)越來越高,瓶頸會(huì)越來越少。
模型和框架分開迭代的時(shí)代,可能快結(jié)束了。
MiniMax 同時(shí)在做 Model 和 Harness,形成了一套相對(duì)完整的閉環(huán)。這種體系化的打法,是需要時(shí)間積累的。
拉長時(shí)間來看,積累的優(yōu)勢(shì)會(huì)慢慢體現(xiàn)出來。從 M2.7 開始的自主進(jìn)化,到一整套自研 Harness 及外界各種 Harness,MiniMax 已經(jīng)在為下一個(gè)賽點(diǎn)提前積累經(jīng)驗(yàn)了。
十字路口正在尋找獨(dú)立撰稿人,撰寫 AI 產(chǎn)品和模型評(píng)測(cè)。
如果你寫過類似文章:《實(shí)測(cè) PixVerse C1》、《實(shí)測(cè) LibTV》,請(qǐng)聯(lián)系 zeo0811@gmail.com ,郵件內(nèi)容請(qǐng)包括:① 個(gè)人介紹、② 你寫過的 AI 評(píng)測(cè)文章。
我們會(huì)提供有競爭力的稿酬。期待與你一起觀察與記錄 AI 時(shí)代