IT 之家 4 月 15 日消息,百度文心大模型團(tuán)隊(duì)今日宣布正式開(kāi)源文生圖模型 ERNIE-Image。據(jù)該團(tuán)隊(duì)介紹,該模型參數(shù)量?jī)H 8B,24GB 顯存的消費(fèi)級(jí)顯卡即可生成媲美頂級(jí)商業(yè)模型的超真實(shí)、復(fù)雜圖像。
當(dāng)前,ERNIE-Image 的模型權(quán)重、推理代碼已在 Hugging Face 全部開(kāi)源,遵循 Apache2.0 協(xié)議,已經(jīng)支持并上線 ComfyUI Workflow,同時(shí)聯(lián)合 Unsloth 推出 GGUF 量化方案。
IT 之家附官方詳細(xì)介紹如下:
ERNIE-Image 是由百度文心大模型團(tuán)隊(duì)開(kāi)發(fā)的一款開(kāi)源文生圖模型。它基于單流 Diffusion Transformer(DiT)架構(gòu),并配有一個(gè)輕量級(jí) Prompt Enhancer,用于將簡(jiǎn)短輸入擴(kuò)展為更豐富、更結(jié)構(gòu)化的描述。在僅有 8B DiT 參數(shù)規(guī)模的前提下,達(dá)到了開(kāi)源文生圖模型中的領(lǐng)先水平。
整體來(lái)看,它在復(fù)雜指令跟隨、文字渲染和結(jié)構(gòu)化圖像生成方面表現(xiàn)突出,適合海報(bào)、漫畫(huà)、多面板布局等需要較強(qiáng)控制能力的內(nèi)容生產(chǎn)場(chǎng)景。同時(shí),模型也覆蓋了從寫(xiě)實(shí)攝影、設(shè)計(jì)感圖像到風(fēng)格化表達(dá)在內(nèi)的多種視覺(jué)風(fēng)格。
經(jīng)過(guò)電影網(wǎng)、鳳凰網(wǎng)、蜻蜓 FM、瑛麒動(dòng)漫、蜂鳥(niǎo) AI 等 30 多個(gè)知名企業(yè)、社區(qū)和創(chuàng)作平臺(tái),20 位藝術(shù)創(chuàng)作設(shè)計(jì)師為期兩周的內(nèi)測(cè)與反饋,今天,我們正式開(kāi)源 ERNIE-Image 模型,參數(shù)量?jī)H 8B,24GB 顯存的消費(fèi)級(jí)顯卡即可生成媲美頂級(jí)商業(yè)模型的超真實(shí)、復(fù)雜圖像。
01. 重新定義消費(fèi)級(jí)開(kāi)源文生圖邊界
在指令遵循、文字渲染能力上,ERNIE-Image 從容駕馭復(fù)雜細(xì)節(jié)約束、多主體關(guān)系和知識(shí)密集型描述;更在中英日韓多語(yǔ)言生成中實(shí)現(xiàn)了字形清晰與筆畫(huà)精準(zhǔn),無(wú)論是海報(bào)排版、學(xué)術(shù)圖表的嚴(yán)謹(jǐn)邏輯,還是漫畫(huà)分鏡的敘事張力,皆能保持完美的布局組織與畫(huà)面秩序,這兩項(xiàng)能力在開(kāi)源模型中均排名第一。
以小搏大,消費(fèi)級(jí)可跑的架構(gòu)設(shè)計(jì),僅 8B 參數(shù)在多項(xiàng) benchmark 上全面超越同類(lèi)開(kāi)源模型,媲美商用模型諸如 NanoBanana 系列。極致的參數(shù)效率優(yōu)化,將高精度生成的門(mén)檻降至 24GB VRAM 的消費(fèi)級(jí) GPU 即可流暢運(yùn)行,顯著降低研究與部署門(mén)檻,打造每一位創(chuàng)作者觸手可及的開(kāi)源工具。
在風(fēng)格表現(xiàn)上,ERNIE-Image 風(fēng)格覆蓋廣,創(chuàng)意邊界寬,支持寫(xiě)實(shí)攝影與風(fēng)格化視覺(jué)表達(dá),包括動(dòng)漫、二次元、電影感膠片、分鏡截圖、老照片等多元風(fēng)格,尤其在角色一致性和情緒表達(dá)上表現(xiàn)突出。
當(dāng)前,ERNIE-Image 的模型權(quán)重、推理代碼已在 Hugging Face 全部開(kāi)源,遵循 Apache2.0 協(xié)議,已經(jīng)支持并上線 ComfyUI Workflow,同時(shí)聯(lián)合 Unsloth 推出 GGUF 量化方案,歡迎大家使用體驗(yàn),盡情創(chuàng)作!
02. 國(guó)際基準(zhǔn)通殺,開(kāi)源全面 SOTA
我們?cè)诙鄠€(gè)公開(kāi)的國(guó)際基準(zhǔn)上對(duì) ERNIE-Image 進(jìn)行了全面評(píng)估,包括用于通用圖像生成的 GenEval、OneIG(中英文),以及用于復(fù)雜指令與文字渲染的 LongText-Bench。
評(píng)估結(jié)果表明,在所有開(kāi)源模型中,ERNIE-Image 的綜合表現(xiàn)處于領(lǐng)先位置,展現(xiàn)出其在通用圖像生成、雙語(yǔ)理解、復(fù)雜指令執(zhí)行等各類(lèi)任務(wù)中的強(qiáng)大能力。尤為突出的是,在文字渲染能力上,ERNIE-Image 取得了開(kāi)源模型的 SOTA 效果,與 NanoBanana 等商業(yè)閉源模型同處第一梯隊(duì)。










