雷火·竞技电竞网站,雷火电竞入口

MiniMax 在搭自己的 Model + Harness 生態(tài)？

作者 : 鏡山

編輯 : Koji

排版 : NCon

今年年初，很多人本來在玩 OpenClaw，因?yàn)樗?Logo 是一只龍蝦，社區(qū)里大家都自稱「蝦農(nóng)」。結(jié)果 Hermes Agent 一出，OpenClaw 的熱度肉眼可見地開始往另一邊轉(zhuǎn)移。

一時(shí)間，社交媒體上到處都是「養(yǎng)馬」的截圖。Hermes Agent 被叫作「愛馬仕 Agent」，GitHub 短時(shí)間內(nèi)沖到近十萬星?！肝r農(nóng)」們開始變成「馬主」。

在大家現(xiàn)在聊的詞中，多了一個(gè)詞反復(fù)出現(xiàn)：Harness，被譽(yù)為繼提示工程和上下文工程之后的「第三范式」。

Anthropic 把 Claude Code 的底層 SDK 叫 Agent Harness，OpenAI 專門發(fā)了篇講 Harness engineering 的博文，評(píng)測(cè)榜單 TerminalBench 2.0 把 Harness 質(zhì)量當(dāng)作衡量 Coding Agent 的核心變量。

這個(gè)詞，算是徹底出圈了。

視線繞回國內(nèi)，MiniMax 是在往 Harness 這個(gè)方向上砸資源比較多，動(dòng)作比較頻繁的一家，試圖構(gòu)建完整的「Model + Harness」閉環(huán)。

正好在昨晚，「十字路口」團(tuán)隊(duì)與 Hermes

Agent 業(yè)務(wù)負(fù)責(zé)人 Tommy Eastman、

MiniMax Agent 首席架構(gòu)師阿島、Agent 研發(fā)工程師擇因，在 B 站做了一場(chǎng)直播。這也算是 Nous Research 在中國的首次正式亮相。

在直播中，我們?nèi)酵_(tái)聊了聊 Harness 和模型到底該怎么配合這件事。

直播現(xiàn)場(chǎng)透露出一個(gè)明顯的信號(hào)：MiniMax 在「Model + Harness」上的準(zhǔn)備，很系統(tǒng)。

這篇文章，主要想聊聊三件事：

【1】Harness 到底是什么？

【2】MiniMax 在這個(gè)方向上具體做了什么？

【3】以及，為什么這件事值得單獨(dú)拿出來說。

Harness 是什么，Model + Harness 又是什么？

先把這個(gè)概念說清楚，不然后面我們對(duì) MiniMax 的討論會(huì)缺少背景。

Harness 這個(gè)詞在 AI 領(lǐng)域其實(shí)不是新詞。

最早是從軟件工程里「test harness」的概念，一套包裹被測(cè)對(duì)象、驅(qū)動(dòng)輸入并捕獲輸出的支架代碼。 2021 年，EleutherAI 發(fā)布了一個(gè)叫 lm-evaluation-harness 的評(píng)測(cè)工具，用來標(biāo)準(zhǔn)化大模型的性能測(cè)試，后來成了 HuggingFace Open LLM Leaderboard 的后端。

但 Harness 從「評(píng)測(cè)工具」變成「Agent 框架」，中間走了一段路。

2023 年，一位叫 Beren Millidge 的研究者寫了一篇影響挺大的文章，提出了一個(gè)類比：LLM 是 CPU，上下文窗口是 RAM，外部數(shù)據(jù)庫是磁盤，工具接口是設(shè)備驅(qū)動(dòng)，而包裹它的整個(gè) scaffold 相當(dāng)于操作系統(tǒng)。

核心思考就一點(diǎn)：如果模型是硬件，那 Harness 就是那層操作系統(tǒng)。

這個(gè)類比后來被反復(fù)引用，奠定了后來 Harness 概念的基礎(chǔ)。

真正讓這個(gè)詞出圈的，是 2026 年年初 Mitchell Hashimoto 的一篇博文：《My AI Adoption Journey》。Hashimoto 是 Terraform 的作者，他在文章里描述了自己從 AI 懷疑者變成重度使用者的過程，其中第五步專門講了「Engineer the Harness」。

他給這個(gè)詞下了一個(gè)特別直接的定義：

每次發(fā)現(xiàn) Agent 犯了某個(gè)錯(cuò)誤，就花時(shí)間設(shè)計(jì)一個(gè)機(jī)制，讓它以后再也不會(huì)犯同樣的錯(cuò)誤。這個(gè)機(jī)制就是 Harness。

博文發(fā)布后不到兩周，OpenAI 就發(fā)布了一篇專門講 Harness engineering 的文章，Anthropic、LangChain 全面跟進(jìn)。這個(gè)詞很快在技術(shù)圈子里傳開了。

那說了這么多，到底什么是 Agent Harness？

如果用一句話來概括：

模型決定一個(gè) Agent 有多聰明，Harness 決定它能不能真正用起來，做一些實(shí)際的任務(wù)。

落到實(shí)際工程里，Harness 一般包括這幾個(gè)組件：

【1】工具調(diào)用編排，讓 Agent 能調(diào)用外部能力；

【2】記憶管理，讓 Agent 能跨會(huì)話記住重要信息；

【3】Skills 系統(tǒng)，讓 Agent 能學(xué)習(xí)和積累新的工作方式；

【4】驗(yàn)證反饋循環(huán)，讓 Agent 能知道自己的輸出是對(duì)還是錯(cuò)。

這四件事看起來各不相關(guān)，但說到底就是一件事：給模型配上一整套運(yùn)行環(huán)境，讓它真正變成可用的 Agent。

雖然 Harness 這個(gè)詞聽起來挺虛的，但它真的能讓一個(gè) Agent 的評(píng)分發(fā)生很大變化。

LangChain 在 2026 年初做過一次實(shí)驗(yàn)：在 TerminalBench 2.0 測(cè)試?yán)?，固定同一個(gè)模型（用的是 gpt-5.2-codex），只更換 Harness，工程團(tuán)隊(duì)把編碼 Agent 的得分從 52.8% 提升到了 66.5%，排名從 30 名開外直接沖到前 5。

同一個(gè)模型，換了一套運(yùn)行框架，性能提升幅度比換一代模型還大。

這件事讓很多人開始意識(shí)到：

2026 年最有杠桿效應(yīng)的工程活動(dòng)，可能就是設(shè)計(jì)模型外圍的那套 Harness。

MiniMax 在搭自己的 Model + Harness 生態(tài)？

說清楚 Harness 之后，接下來一個(gè)問題就出來了：Harness 很重要，但光有 Harness 行不行？

答案是不行。

框架搭得再完善，模型調(diào)不準(zhǔn)工具、調(diào)不準(zhǔn)指令，整個(gè)系統(tǒng)還是跑不起來。所以問題變成了：Harness 重要，Model 也同樣必要，那這兩者能不能形成一個(gè)互相促進(jìn)的閉環(huán)？

框架層的需求直接反饋到模型層，模型層的進(jìn)步直接體現(xiàn)在框架層？

這個(gè)問題，國內(nèi)很多 AI 廠商都在嘗試回答。在大量摸索中，MiniMax 的動(dòng)作算是比較顯眼的。不只提供模型 API，在模型端，它做了一系列模型，包括 M2.7、在 Harness 方向，又做了 MaxClaw、MaxHermes 等，整體的方向都指向同一個(gè)點(diǎn)：自己的 Model + Harness 生態(tài)。

從時(shí)間線上看，這三條線的推出節(jié)奏很有意思。

先說模型端，M2.7 今年三月剛發(fā)布。從去年 10 月到今年 3 月，108 天里連推 M2、M2.1、M2.5、M2.7 四代，這個(gè)更新節(jié)奏很迅速，但 M2.7 真正值得看的，是它的優(yōu)化方向變了，重點(diǎn)在于幾個(gè)傳統(tǒng)評(píng)測(cè)體系里不太會(huì)出現(xiàn)的指標(biāo)：工具調(diào)用準(zhǔn)確度、復(fù)雜 Skills 遵循率、Agent Harness 適配能力。

我們?cè)凇?a class="normal_text_link mp_article_text_link" textvalue=" 我們用 MiniMax M2.7 改造了「十字路口」的整套內(nèi)容工作流 " data-itemshowtype="0" linktype="text" data-linktype="2" target="_blank">我們用 MiniMax M2.7 改造了「十字路口」的整套內(nèi)容工作流》一文中，實(shí)測(cè)了該模型的完整能力，用它做了多個(gè)實(shí)際生產(chǎn)力工具。

這些數(shù)字背后還有一個(gè)更核心的能力：M2.7 能自我進(jìn)化。它能自動(dòng)監(jiān)控實(shí)驗(yàn)狀態(tài)、讀取日志排查問題、執(zhí)行代碼修復(fù)、跑冒煙測(cè)試，在 RL 場(chǎng)景里能獨(dú)立完成 30% 到 50% 的工作流。

到了年初 OpenClaw 爆火的時(shí)候，MiniMax 做出了第一批云端托管版本的龍蝦—— MaxClaw。OpenClaw 的核心是 Skills 系統(tǒng)和自我進(jìn)化能力，它的創(chuàng)始人 Peter Steinberger 當(dāng)時(shí)連發(fā)推文稱贊 M2.1 模型在工具調(diào)用和性價(jià)比上的表現(xiàn)。

MaxClaw 把 OpenClaw 這套能力云端化了，保留了 Skills 精選和持續(xù)進(jìn)化的核心特性，把部署門檻降到接近零，用戶不需要懂技術(shù)，直接上手用。

我們也在《當(dāng) MiniMax 遇見 OpenClaw：「1 2 3 上鏈接」》一文中，實(shí)際將 MaxClaw 部署進(jìn)了 Slack 中，并完整用它走完了「整理 CVPR 2026 的 GitHub 倉庫，定時(shí)匯報(bào)、監(jiān)控、歸類，到點(diǎn)自動(dòng)匯報(bào)，更新列表，順便做分類」的工作流：

再往后 Hermes Agent 火起來的時(shí)候，MiniMax 又迅速跟進(jìn)了 MaxHermes。Hermes Agent 是 Nous Research 開源的一個(gè)自我進(jìn)化 AI Agent，MIT 協(xié)議。

它的核心能力有 2 塊：

【1】一是自進(jìn)化的 Skills 系統(tǒng)，能從使用經(jīng)驗(yàn)中自動(dòng)創(chuàng)建新技能、在使用中持續(xù)改進(jìn)；

【2】二是全平臺(tái)接入，能通過 Gateway 連接 15 個(gè)以上的聊天平臺(tái)，包括飛書、釘釘、企業(yè)微信這類本土 IM。

Skills 自進(jìn)化架構(gòu)設(shè)計(jì)得很優(yōu)雅，但開源版本有一個(gè)繞不開的問題：需要自己搭環(huán)境、配 API Key、管理服務(wù)器，門檻攔住了很多人，這也是 MaxHermes 的位置。

MaxHermes 把整個(gè)開源版本封裝成云端服務(wù)，一鍵啟動(dòng)，把門檻從「需要技術(shù)背景」拉平到「會(huì)用手機(jī)就能上手」，部署完之后 Agent 直接跑在本土辦公環(huán)境里，不用自己折騰。

我們也實(shí)際上手走完了一遍完整流程，在 MiniMax Agent 官網(wǎng)，只需要點(diǎn)擊一下「MaxHermes」就能直接使用：

在我們的深度使用中，發(fā)現(xiàn) MaxHermes 很適合做一些多步驟，比較復(fù)雜的任務(wù)，然后再將其自動(dòng)歸納成 Skills。比如我們其實(shí)一直在往 GitHub 上上傳一些自己做的 Vibe Tools 項(xiàng)目，但是維護(hù)開源項(xiàng)目其實(shí)也是需要一些精力的，這時(shí)候就可以用 MaxHermes 幫忙做這些事。

提示詞如下；

` 我負(fù)責(zé)維護(hù)一個(gè)開源項(xiàng)目 [ XXX 的 GitHub 用戶名 ] / [ XXX 的倉庫名 ] ，` ` 希望你每周一上午幫我生成一份 " 上周倉庫運(yùn)營周報(bào) " 并發(fā)到我的 Telegram。` ` 這周先手動(dòng)跑一次，我會(huì)在過程中給你反饋，` ` 你確認(rèn)跑通后把流程沉淀成 Skill，之后每周一早上 9 點(diǎn)自動(dòng)執(zhí)行。` ` 周報(bào)需要包含以下內(nèi)容：` 1. ` 數(shù)據(jù)概覽 ` - ` 上周（周一 00:00 至周日 23:59，東八區(qū)）新增 Star / Fork / Watcher 數(shù) ` - ` 對(duì)比再上一周的增長率 ` - ` 按日畫一個(gè)簡單的文本趨勢(shì)（不需要圖，用字符柱狀圖就行）` 1. `Issue 動(dòng)態(tài) ` - ` 新開 Issue 分類統(tǒng)計(jì)：bug / feature request / question / 其他 ` - ` 被關(guān)閉的 Issue 中，平均響應(yīng)時(shí)間和平均關(guān)閉時(shí)間 ` - ` 列出仍 open 且超過 7 天無人響應(yīng)的 Issue，按 reaction 數(shù)排序前 5 條 ` 1. `PR 動(dòng)態(tài) ` - ` 新開 / 已合并 / 已關(guān)閉的 PR 數(shù) ` - ` 貢獻(xiàn)者列表（區(qū)分首次貢獻(xiàn)者，首次貢獻(xiàn)者要特別標(biāo)出）` - ` 合并耗時(shí)最長的 3 個(gè) PR，以及耗時(shí)最短的 3 個(gè) ` 1. ` 需要我關(guān)注的事項(xiàng) ` - ` 你判斷 " 我應(yīng)該本周處理 " 的 issue 或 PR，最多 5 條，附理由 ` - ` 如果有首次貢獻(xiàn)者，提醒我去寫感謝語 ` ` 輸出格式：Markdown，Telegram 推送時(shí)轉(zhuǎn)換為純文本排版。` ` 文件同時(shí)保存一份到 ~/reports/weekly/YYYY-WW.md 方便我歸檔。` ` 開跑吧。過程中遇到不確定的地方問我，不要瞎猜。`

MaxHermes 的流程比較快，所有內(nèi)容都會(huì)存到云服務(wù)器的目錄里，然后它會(huì)自動(dòng)將整個(gè)多步驟流程沉淀成 Skill 并設(shè)置成每周一定時(shí)執(zhí)行：

或者讓 MaxHermes 關(guān)注 Polymarket 上的熱門預(yù)測(cè)市場(chǎng)，每天早上 8:30（東八區(qū)）自動(dòng)幫我生成一份 " 昨日 Polymarket 交易日?qǐng)?bào) " 并推送到我的 Telegram。

然后，先手動(dòng)讓它跑一次，在過程里給完反饋，跑通之后，就讓它把整套流程沉淀成 Skill：

除此之外，在「十字路口」團(tuán)隊(duì)與 MiniMax 、Hermes Agent 業(yè)務(wù)負(fù)責(zé)人的直播中，MiniMax 透露出它們內(nèi)部有個(gè)「Agent Harness」的直觀用法：內(nèi)部有一個(gè) Auto Agent 員工，可以盯住 GitHub 上可能會(huì)用到 MiniMax 模型能力的開源項(xiàng)目，如果這個(gè)項(xiàng)目出現(xiàn)并被判斷相關(guān)性很高，這個(gè) Agent 員工就會(huì)自主觸達(dá)這個(gè)項(xiàng)目的開發(fā)者，邀請(qǐng)他們體驗(yàn) MiniMax 模型或產(chǎn)品。

所以，把 M2.7、MaxClaw、MaxHermes 以及上面的這個(gè)「內(nèi)部 AI Agent 員工」放在一起看，從模型到 Harness，它們已然成為同一套體系的不同層面，這個(gè)體系就是 MiniMax 版的「Model + Harness」。

底層是 M2.7 的模型能力，工具調(diào)用準(zhǔn)、復(fù)雜指令跟得上、能自我迭代。中間層是 MaxClaw 和 MaxHermes，把 Skills 系統(tǒng)、全平臺(tái)接入、驗(yàn)證反饋這些工程能力封裝好，拿來就能用。上層是對(duì)本土 IM 生態(tài)的對(duì)接，打通了飛書、釘釘、企業(yè)微信，Agent 直接跑進(jìn)真實(shí)工作流里。

三層之間還有一個(gè)特點(diǎn)是，它們是相互加強(qiáng)的。M2.7 的模型能力為 MaxHermes 和 MaxClaw 的 Harness 提供了更扎實(shí)的底層支撐，而 MaxHermes 和 MaxClaw 在產(chǎn)品層收到的真實(shí)需求和使用反饋，又直接反饋到 M2.7 的優(yōu)化方向上。

模型層和 Harness 層不是分離的，是一起轉(zhuǎn)的。

這不只是 MiniMax 一家在做的事。就在最近，Anthropic 也發(fā)布了 Claude Managed Agents 的公測(cè)版本，把云端托管的 Agent 服務(wù)正式推向市場(chǎng)。這意味著什么？頭部公司也在往同一個(gè)方向走：模型和 Harness 不只是湊在一起跑，在同一個(gè)體系內(nèi)持續(xù)磨合、持續(xù)進(jìn)化。

這套飛輪一旦轉(zhuǎn)起來，后來者要追的，就從一個(gè)指標(biāo)變成了一整套互相咬合的體系。

這就是 MiniMax 押注的方向，也是 2026 年 AI Agent 領(lǐng)域可能真正會(huì)拉開差距的地方。

為什么這件事值得單獨(dú)說一說

一個(gè)常見的解讀是：模型能力逐漸趨同，誰能把讓模型真正跑起來這件事做好，誰就能在下一階段拿到優(yōu)勢(shì)。這個(gè)解讀有道理，但如果只看到這一層，可能還是有點(diǎn)簡單了。

更值得看的一點(diǎn)是 Harness 概念的出現(xiàn)，把行業(yè)里一個(gè)原本模糊的問題變清晰了：

模型和框架之間的關(guān)系，到底應(yīng)該是怎樣的？

傳統(tǒng)做法是框架先搭好，模型塞進(jìn)去跑。這種方式問題不大，但問題在于，框架是為通用場(chǎng)景設(shè)計(jì)的，而 Agent 作為一種具體的使用形態(tài)，有自己獨(dú)特的需求：工具調(diào)用要準(zhǔn)、指令遵循要穩(wěn)、長時(shí)間運(yùn)行要穩(wěn)。

這些能力通用模型不會(huì)天然就有，得專門去做。

MiniMax 在 M2.7 上做的事，說白了就是讓模型往框架需要的樣子走。這個(gè)選擇做起來并不容易，意味著模型迭代的方向要改，團(tuán)隊(duì)內(nèi)部要協(xié)調(diào)的事情也變多了。但好處是：模型和框架在同一個(gè)體系內(nèi)一起迭代，互相之間的咬合程度會(huì)越來越高，瓶頸會(huì)越來越少。

模型和框架分開迭代的時(shí)代，可能快結(jié)束了。

MiniMax 同時(shí)在做 Model 和 Harness，形成了一套相對(duì)完整的閉環(huán)。這種體系化的打法，是需要時(shí)間積累的。

拉長時(shí)間來看，積累的優(yōu)勢(shì)會(huì)慢慢體現(xiàn)出來。從 M2.7 開始的自主進(jìn)化，到一整套自研 Harness 及外界各種 Harness，MiniMax 已經(jīng)在為下一個(gè)賽點(diǎn)提前積累經(jīng)驗(yàn)了。

十字路口正在尋找獨(dú)立撰稿人，撰寫 AI 產(chǎn)品和模型評(píng)測(cè)。

如果你寫過類似文章：《實(shí)測(cè) PixVerse C1》、《實(shí)測(cè) LibTV》，請(qǐng)聯(lián)系 zeo0811@gmail.com ，郵件內(nèi)容請(qǐng)包括：① 個(gè)人介紹、② 你寫過的 AI 評(píng)測(cè)文章。

我們會(huì)提供有競爭力的稿酬。期待與你一起觀察與記錄 AI 時(shí)代

电竞比分网-中国电竞赛事及体育赛事平台

宙世代元宇宙

元宇宙黨建解決方案

元宇宙文旅解決方案

元宇宙展廳解決方案

元宇宙行業(yè)峰會(huì)解決方案

元宇宙營銷解決方案

元宇宙會(huì)展解決方案

元宇宙演藝節(jié)目解決方案

元宇宙博物館解決方案

元宇宙圖書館解決方案

元宇宙校園解決方案

元宇宙企業(yè)展廳解決方案

元宇宙藝術(shù)展解決方案

元宇宙電商解決方案

融媒體解決方案

ZAKER智慧云

媒體解決方案

黨建解決方案

公檢法解決方案

智慧交通解決方案

高校解決方案

AI視頻

AI視頻剪輯

視頻定制服務(wù)

AI智能客服

我的訂閱

MiniMax 的下一張牌：模型 × Harness

宙世代

一起剪

相關(guān)閱讀

小區(qū)內(nèi)駕車剮蹭后離開算不算肇事逃逸 法院給說法

建議國家按孩子數(shù)發(fā)錢！梁建章談鼓勵(lì)生育：人多能讓中國保持領(lǐng)先的技術(shù)創(chuàng)新

33號(hào)遠(yuǎn)征隊(duì)再奪大獎(jiǎng)

真有外星人嗎！美國總統(tǒng)特朗普稱很快發(fā)布第一批UFO文件

廣藥集團(tuán)國際化提速：牽手廣西，掘金東盟

厄爾尼諾引發(fā)極限高溫？官方回應(yīng)來了

伊朗：拒絕將濃縮鈾運(yùn)往國外

深圳首次向功能型無人車開放夜間路權(quán)

特朗普：以色列適可而止

洪龍同志工作期間突發(fā)心臟驟停，不幸因公犧牲

山西這部禁毒微短劇獲全國推薦

用鏡頭記錄時(shí)代的溫度

美伊最新表態(tài)

張雪發(fā)達(dá)后，會(huì)不會(huì)拋棄妻子？

馬斯克、奧特曼與OpenAI的“最后審判”

最新評(píng)論

企業(yè)資訊

熱門推薦

企業(yè)資訊

小區(qū)內(nèi)駕車剮蹭后離開算不算肇事逃逸法院給說法

建議國家按孩子數(shù)發(fā)錢！梁建章談鼓勵(lì)生育：人多能讓中國保持領(lǐng)先的技術(shù)創(chuàng)新

真有外星人嗎！美國總統(tǒng)特朗普稱很快發(fā)布第一批UFO文件

厄爾尼諾引發(fā)極限高溫？官方回應(yīng)來了

張雪發(fā)達(dá)后，會(huì)不會(huì)拋棄妻子？

馬斯克、奧特曼與OpenAI的“最后審判”