电竞比分网-中国电竞赛事及体育赛事平台

IT之家 14分鐘前

24GB 顯存就能跑！百度文心開(kāi)源文生圖模型 ERNIE-Image

IT 之家 4 月 15 日消息，百度文心大模型團(tuán)隊(duì)今日宣布正式開(kāi)源文生圖模型 ERNIE-Image。據(jù)該團(tuán)隊(duì)介紹，該模型參數(shù)量?jī)H 8B，24GB 顯存的消費(fèi)級(jí)顯卡即可生成媲美頂級(jí)商業(yè)模型的超真實(shí)、復(fù)雜圖像。

當(dāng)前，ERNIE-Image 的模型權(quán)重、推理代碼已在 Hugging Face 全部開(kāi)源，遵循 Apache2.0 協(xié)議，已經(jīng)支持并上線 ComfyUI Workflow，同時(shí)聯(lián)合 Unsloth 推出 GGUF 量化方案。

IT 之家附官方詳細(xì)介紹如下：

ERNIE-Image 是由百度文心大模型團(tuán)隊(duì)開(kāi)發(fā)的一款開(kāi)源文生圖模型。它基于單流 Diffusion Transformer（DiT）架構(gòu)，并配有一個(gè)輕量級(jí) Prompt Enhancer，用于將簡(jiǎn)短輸入擴(kuò)展為更豐富、更結(jié)構(gòu)化的描述。在僅有 8B DiT 參數(shù)規(guī)模的前提下，達(dá)到了開(kāi)源文生圖模型中的領(lǐng)先水平。

整體來(lái)看，它在復(fù)雜指令跟隨、文字渲染和結(jié)構(gòu)化圖像生成方面表現(xiàn)突出，適合海報(bào)、漫畫(huà)、多面板布局等需要較強(qiáng)控制能力的內(nèi)容生產(chǎn)場(chǎng)景。同時(shí)，模型也覆蓋了從寫(xiě)實(shí)攝影、設(shè)計(jì)感圖像到風(fēng)格化表達(dá)在內(nèi)的多種視覺(jué)風(fēng)格。

經(jīng)過(guò)電影網(wǎng)、鳳凰網(wǎng)、蜻蜓 FM、瑛麒動(dòng)漫、蜂鳥(niǎo) AI 等 30 多個(gè)知名企業(yè)、社區(qū)和創(chuàng)作平臺(tái)，20 位藝術(shù)創(chuàng)作設(shè)計(jì)師為期兩周的內(nèi)測(cè)與反饋，今天，我們正式開(kāi)源 ERNIE-Image 模型，參數(shù)量?jī)H 8B，24GB 顯存的消費(fèi)級(jí)顯卡即可生成媲美頂級(jí)商業(yè)模型的超真實(shí)、復(fù)雜圖像。

01. 重新定義消費(fèi)級(jí)開(kāi)源文生圖邊界

在指令遵循、文字渲染能力上，ERNIE-Image 從容駕馭復(fù)雜細(xì)節(jié)約束、多主體關(guān)系和知識(shí)密集型描述；更在中英日韓多語(yǔ)言生成中實(shí)現(xiàn)了字形清晰與筆畫(huà)精準(zhǔn)，無(wú)論是海報(bào)排版、學(xué)術(shù)圖表的嚴(yán)謹(jǐn)邏輯，還是漫畫(huà)分鏡的敘事張力，皆能保持完美的布局組織與畫(huà)面秩序，這兩項(xiàng)能力在開(kāi)源模型中均排名第一。

以小搏大，消費(fèi)級(jí)可跑的架構(gòu)設(shè)計(jì)，僅 8B 參數(shù)在多項(xiàng) benchmark 上全面超越同類(lèi)開(kāi)源模型，媲美商用模型諸如 NanoBanana 系列。極致的參數(shù)效率優(yōu)化，將高精度生成的門(mén)檻降至 24GB VRAM 的消費(fèi)級(jí) GPU 即可流暢運(yùn)行，顯著降低研究與部署門(mén)檻，打造每一位創(chuàng)作者觸手可及的開(kāi)源工具。

在風(fēng)格表現(xiàn)上，ERNIE-Image 風(fēng)格覆蓋廣，創(chuàng)意邊界寬，支持寫(xiě)實(shí)攝影與風(fēng)格化視覺(jué)表達(dá)，包括動(dòng)漫、二次元、電影感膠片、分鏡截圖、老照片等多元風(fēng)格，尤其在角色一致性和情緒表達(dá)上表現(xiàn)突出。

當(dāng)前，ERNIE-Image 的模型權(quán)重、推理代碼已在 Hugging Face 全部開(kāi)源，遵循 Apache2.0 協(xié)議，已經(jīng)支持并上線 ComfyUI Workflow，同時(shí)聯(lián)合 Unsloth 推出 GGUF 量化方案，歡迎大家使用體驗(yàn)，盡情創(chuàng)作！

02. 國(guó)際基準(zhǔn)通殺，開(kāi)源全面 SOTA

我們?cè)诙鄠€(gè)公開(kāi)的國(guó)際基準(zhǔn)上對(duì) ERNIE-Image 進(jìn)行了全面評(píng)估，包括用于通用圖像生成的 GenEval、OneIG（中英文），以及用于復(fù)雜指令與文字渲染的 LongText-Bench。

評(píng)估結(jié)果表明，在所有開(kāi)源模型中，ERNIE-Image 的綜合表現(xiàn)處于領(lǐng)先位置，展現(xiàn)出其在通用圖像生成、雙語(yǔ)理解、復(fù)雜指令執(zhí)行等各類(lèi)任務(wù)中的強(qiáng)大能力。尤為突出的是，在文字渲染能力上，ERNIE-Image 取得了開(kāi)源模型的 SOTA 效果，與 NanoBanana 等商業(yè)閉源模型同處第一梯隊(duì)。