电竞比分网-中国电竞赛事及体育赛事平台

關(guān)于ZAKER Skills 合作
鈦媒體 19分鐘前

當(dāng)大模型開始為 Agent “打工”

圖片來源:unsplash

什么是 Agentic AI 時代到來最有力的象征?

或許,當(dāng)大模型開始搶著為 Agent" 打工 " 時,AI 的新故事就開始了。

而在當(dāng)下這個節(jié)點,國內(nèi)外頭部大模型幾乎都在 Agent 方向上押注、探索了一段時間后,故事的主角也在悄然變換。

當(dāng) Agent 開始定義大模型

此前,有關(guān) AI 大模型的一大質(zhì)疑是其一直 " 飄 " 在云端,智能難以落地兌現(xiàn)實際的經(jīng)濟(jì)價值。今年以來,以 " 龍蝦 OpenClaw" 為代表的 Agent" 破圈 " 席卷全球,其主動規(guī)劃、執(zhí)行任務(wù)的特點,被稱作是讓大模型長了 " 手和腳 "。

以 Anthropic 為代表,頂級大模型廠商迅速將大模型的發(fā)力方向從 AI Coding 等相對聚焦的賽道,切換或擴(kuò)展至打造、發(fā)揮 Agent 能力。

不同于一手掀起生成式 AI 浪潮的 OpenAI,創(chuàng)始團(tuán)隊脫胎于前者的 Anthropic,并未將重點放在 C 端,而是從一開始就瞄準(zhǔn) B 端。這本就是看重實用性、生產(chǎn)力、兌現(xiàn)經(jīng)濟(jì)價值的市場,而接連踩中甚至引導(dǎo)了 Coding、Agent 浪潮后,Anthropic 的業(yè)績和估值也均實現(xiàn)暴增。就在 5 月末,該公司宣布完成 H 輪 650 億美元融資,投后估值高達(dá) 9650 億美元,壓過 OpenAI 一頭。6 月初又有消息稱,Anthropic 搶先 OpenAI 一步,秘密提交了招股意向書,或能率先完成 IPO。

而大模型與 Agent 的故事也仍在繼續(xù),更多新的嘗試已經(jīng)涌現(xiàn)。

近日,國產(chǎn) AI 大模型頭部公司階躍星辰發(fā)布并開源了 Step 3.7 Flash 模型,主打面向真實的 Agent 工作流,聚焦如何高效解決 Agent、多模態(tài)、Search 與 Coding 任務(wù)。

該公司近來頗受市場矚目,在年初完成 50 億人民幣 B+ 輪融資后,5 月又爆出消息稱階躍星辰新一輪 25 億美金融資也接近完成,赴港上市節(jié)奏在加快,很有可能成為智譜、MiniMax 之后第三家登陸港交所的國產(chǎn)大模型公司。

據(jù)了解,5 月末曾有行業(yè)觀察者點評國產(chǎn)大模型廠商動態(tài)時稱,在 IPO 預(yù)期下,階躍近期可能會集中 " 亮牌 ",拿出更多能印證公司方向、體現(xiàn)價值的 " 硬貨 "。

最新發(fā)布的模型可能就是其中之一。根據(jù)階躍星辰官方公眾號介紹,Step 3.7 Flash 特別適合高頻、多輪的 Agent 應(yīng)用場景,并針對生產(chǎn)級 Agent 場景需求優(yōu)化了原生多模態(tài)理解與執(zhí)行、聯(lián)網(wǎng)與視覺搜索增強、高可靠工具調(diào)用與編排等關(guān)鍵能力,能顯著提升任務(wù)完成效率。

Artificial Analysis 最新 Output Speed 榜單顯示,該模型輸出速度達(dá)到 409 tokens/s,在主流模型中居首。此外,其端到端響應(yīng)時長(End-to-End Response Time)、智能效率(Intelligence vs. Output Speed)以及速度價格比(Output Speed vs. Price)等指標(biāo)亦排在前列。

目前來看,Agentic AI 時代的大模型競爭,正在被重新定義。此前通過打榜、做題來比拼誰 " 更聰明 " 的做法已漸漸失去吸引力,而 Agent 真實場景中的任務(wù)完成效率,很可能會成為評價大模型的重要指標(biāo)。

有業(yè)內(nèi)人士表示,在新的敘事中,單點性能指標(biāo)的重要性會下降,優(yōu)化整個 Agent loop 變得更為關(guān)鍵。能平衡好速度、智能、成本、任務(wù)完成率的大模型,離應(yīng)用更近,也更容易兌現(xiàn)經(jīng)濟(jì)價值。

與此同時,隨著各行各業(yè)加速推進(jìn) Agent 落地,F(xiàn)lash 類模型的角色也正在發(fā)生轉(zhuǎn)變。以往,與 Pro 版、Ultra 版模型相比,主打快速、便捷、性價比的 Flash 版更多只被視為輕量級替代品。但在 Agent 大幅推漲 Token 消耗量和價格,推進(jìn) AI 廣泛落地之際,誰能以更低延遲、更低成本和更高吞吐,完成更多真實任務(wù)變得更加緊要,而這正是 Flash 的主戰(zhàn)場。也因此,不少業(yè)內(nèi)聲音看好其逐步成為支撐生產(chǎn)級 Agent 規(guī)模化落地的基礎(chǔ)設(shè)施。

不過,目前來看,大模型在釋放 Agent 生產(chǎn)力、激活 Flash 價值方面還有不少路要走。階躍方面也表示,后續(xù)將圍繞 Step 3.7 Flash 推出生態(tài)共建計劃和生態(tài)伙伴限時體驗活動,與開發(fā)者一起探索 Agent 效率的評估方式、工程實踐和生產(chǎn)化路徑。

據(jù)了解,Step 3.7 Flash 發(fā)布后兩天就沖入 OpenRouter 全球熱榜前列。此外,全球權(quán)威大模型評測 Artificial Analysis Output Speed 榜單更新,Step 3.7 Flash 以 409 tokens/s 的輸出速度位列主流模型第一。與此同時,Step 3.7 Flash 在端到端響應(yīng)時長(End-to-End Response Time)、智能效率(Intelligence vs. Output Speed)以及速度價格比(Output Speed vs. Price)等多個關(guān)鍵維度均處于領(lǐng)先位置。

終端 Agent 能寫下哪些新故事?

梳理以往資料可發(fā)現(xiàn),階躍星辰與其他大模型廠商的差異化特點更多集中于對 Agentic 模型和 AI+ 終端應(yīng)用場景的大舉布局。

該公司在業(yè)內(nèi)曾有 " 多模態(tài)卷王 " 之稱。有數(shù)據(jù)顯示,在階躍發(fā)布的 40 余款大模型中,超八成都是多模態(tài),覆蓋視覺理解、圖像生成、圖像編輯、語音推理、音樂生成、GUI、多模態(tài)推理等方向,是國產(chǎn)大模型中少有的堅持 " 原生多模 " 方向的廠商。

多模態(tài)能力也是終端 Agent 走向規(guī)模化應(yīng)用落地的關(guān)鍵。在 AI+ 終端布局上,階躍目前是國內(nèi)和手機廠商合作最多的獨立大模型廠商之一,還同時覆蓋汽車、IoT 及具身智能等端側(cè)場景。從近期動向來看,智能終端 Agent 也愈發(fā)成為該公司商業(yè)化的關(guān)鍵一環(huán)。

目前,隨著 Agent 興起,越來越多的 AI 硬件涌現(xiàn),終端 Agent 已被不少人視為大勢所趨。此前有端側(cè)芯片從業(yè)者對作者表示,端側(cè)市場已經(jīng)進(jìn)入爆發(fā) " 元年 ",未來可能超過 80% 的大模型推理都會在終端完成。

不過,該從業(yè)者也提示,終端 AI 的上下游產(chǎn)業(yè)鏈還有待完善,端側(cè)大模型目前的能力也亟需提升,包括在多模態(tài)、全模態(tài)等視頻、語音交互方面,需要更能滿足實時性等核心需求的產(chǎn)品。

這顯然也成為了不少大模型的發(fā)力方向。

從目前能了解到的一些 Step 3.7 Flash 測試 Demo 和用戶反饋來看,不少都集中在終端界面,并凸顯多模態(tài)的作用。比如識別產(chǎn)品界面的設(shè)計特點、理解飛機駕駛艙環(huán)境并生成起飛操作說明、識別多個不同場景手機拍攝的發(fā)票照片并一鍵導(dǎo)出表格等。據(jù)介紹,相關(guān)案例中模型能理解遠(yuǎn)較以往復(fù)雜的場景和真實世界工作流,具備更強的端到端任務(wù)完成能力和跨場景泛化能力。

階躍方面也強調(diào),在 Agentic 時代,多模態(tài)能力更多被視為模型理解能力的擴(kuò)展,在真實的物理世界工作場景中,只有具備穩(wěn)定多模態(tài)理解能力的模型,才能真正進(jìn)入任務(wù)環(huán)境,并參與后續(xù)的決策與執(zhí)行流程。這也意味著,多模態(tài)能力將承擔(dān)起模型接入真實世界任務(wù)的關(guān)鍵接口的重要功能,也會愈發(fā)成為大模型的標(biāo)配。

從行業(yè)視角來看,如果多模態(tài)能力能夠?qū)崿F(xiàn)躍遷,不僅 Agent 落地節(jié)奏會進(jìn)一步加快,端側(cè) AI 的爆發(fā)可能也會加速到來。

當(dāng)大模型愈發(fā)聚焦如何讓 Agent 走入任務(wù)和生活的現(xiàn)場時,相信 AI 的故事也將迎來新的篇章。

相關(guān)標(biāo)簽

相關(guān)閱讀

最新評論

沒有更多評論了

覺得文章不錯,微信掃描分享好友

掃碼分享

熱門推薦

查看更多內(nèi)容

企業(yè)資訊

查看更多內(nèi)容