在小說閱讀器讀本章
去閱讀
前段時間各家龍蝦該上場的基本都亮相了,世超也是順便用了個爽,但最近又琢磨出個新問題:
這些大廠出品的 " 龍蝦 " 雖然好上手又穩(wěn)定,但閉源的總顯得沒那么自由。而原版的 OpenClaw 雖然是開源的,但個人維護(hù),又沒有那么穩(wěn)定,屬于一個大更新干掉一批插件的那種。
咋就不能像個成年人一樣的全都要呢?

這回終于不是水里游的蝦了,上手把玩了幾圈兒后,只能說,這只地上跑的鹿味道確實(shí)挺獨(dú)特的。
咱先來個綜合任務(wù)開開胃,看看它的處理邏輯是怎么樣的,能不能像普通龍蝦那樣靈活的使用工具作為手腳。
圖源小紅書作者:想看演唱會


里面花卉科普,綠化標(biāo)準(zhǔn),觀賞指南乃至可視化都可圈可點(diǎn),算是繼承了上一代 " 深度調(diào)研 " 的優(yōu)良傳統(tǒng)。
接著稍微升級一下任務(wù),讓它盡可能多的調(diào)用工具,試著搭建一個用于展示的網(wǎng)頁,要求主題相關(guān),務(wù)必花里胡哨。

而且整個任務(wù)消耗才 15 萬 token,作為對比,同樣的模型,同樣的提示詞,默認(rèn)配置下的 OpenClaw 差不多的效果要燒掉整整 30 萬。
這就是大廠調(diào)教帶來的優(yōu)勢了,工程管理這塊兒確實(shí)能減輕點(diǎn) Token 賬單的負(fù)擔(dān)。

說大白話就是一套成品方案,用來調(diào)遣組合 Agent 幫你干活兒。
跟隨叫隨到的龍蝦不同,它不太像呆在聊天框里什么都會點(diǎn)兒的管家,更像是一位專事專辦的天選打工人,任務(wù)優(yōu)先。
圖源 X 用戶:Gorden Sun

恰巧前些天 NASA 剛發(fā)射載人繞月的飛船,給世超羨慕的不行,這星辰大海的誰不想去看看,這回交給 DeerFlow,看它有沒啥辦法送咱登月。

果然,沒有嘻嘻哈哈后,它就轉(zhuǎn)變畫風(fēng)開始調(diào)用技能包干活了,搜索分析可視化,十八般武藝都上陣了。

這里也能看出,雖然模型本身的性能決定了結(jié)果的上限,但這些工程化的調(diào)用手段才是保證活兒能跑通的底座。
在這方面,OpenClaw 這種個人項(xiàng)目往往激進(jìn)一些,但大廠的調(diào)教會更偏向保守和穩(wěn)妥,拆解和規(guī)劃并不會上來就指派一大群 Agent 去干活兒。
當(dāng)然咱不能止步于此,還得再壓榨壓榨,看看長線任務(wù)他到底能不能跑通。


整本計劃二十萬字,內(nèi)容也不是簡單的拼接,有索引總綱,跨章節(jié)也有交叉引用的地方,能看出來任務(wù)流程是能跑通的,世超接下來也就安心去準(zhǔn)備了,2036 年咱就月球見哈。

比如隨便打開一篇文章,就能發(fā)現(xiàn),除了目錄文檔,剩下的章節(jié)內(nèi)容雖然十分詳實(shí),但語言卻是英文的。

而顯然,這里的默認(rèn)調(diào)教還是英文推理加中文顯示,所以在一些環(huán)節(jié)就容易出現(xiàn)輸出語言傾向的混亂。

不過雖然從效果來看沒有特別突出,但一些任務(wù)執(zhí)行上的選擇倒是比較成熟。
尤其是在隔離沙箱中執(zhí)行,一些操作的權(quán)限它沒有,但此時進(jìn)程并不會卡頓停滯,它會根據(jù)情況或給出方案,或直接跳過先去干其他活兒,最后再匯報情況。
這種任務(wù)規(guī)劃的方式雖然容易導(dǎo)致它 " 摸魚 ",但確實(shí)更可靠一些,不會陷入死循環(huán)擱那兒空燒 Token。

那倒也沒有,何況龍蝦還有各個大廠去做降低門檻的產(chǎn)品,DeerFlow 這個本來就是面向開發(fā)者的開源項(xiàng)目,用起來反而更麻煩。

除此之外,一些小 Bug 也挺影響使用體驗(yàn)的,世超用的時候,就老是丟失前面的對話記錄,遇到權(quán)限問題,還得反復(fù)回到后臺去更改設(shè)置,一趟下來得修修改改的地方還挺多的。
現(xiàn)在的它好比一箱子非常專業(yè)的修理工具,各種型號的扳手卡鉗一應(yīng)俱全,但實(shí)際上咱日常里可能就是個擰螺絲的活兒,工具多了反而不好找了。

不過就現(xiàn)在這個摸著石頭過河的階段,咱就索性讓這些蝦啊鹿啊在競技場里邊戰(zhàn)斗邊進(jìn)化吧,總歸會角逐出那個真正能實(shí)際干活兒的賽博帕魯。
撰文:風(fēng)華
編輯:早起 & 江江 & 面線
美編:煥妍
圖片、資料來源:
Github,小紅書,X,DeerFlow,網(wǎng)絡(luò)


