"2030 年,打造出全球十億人愿意生活在其中的虛擬世界。"
這是三年前米哈游喊出的口號,世超當初聽著也是小小激動了一把,但近幾年好像都沒啥動靜了,也就覺得這不過是給咱二次元畫的餅罷了。。。

LPM-1.0 (Large Performance Model)即大表演模型,由人工智能公司 Anuttacon 訓練,背后正是米哈游聯(lián)合創(chuàng)始人蔡浩宇。
而在這次的視頻模型之前,他們還推出過二次元風格非常濃郁的聊天模型 "AnunNeko",以及 AI 驅(qū)動的游戲 "Whispers from the Star"。

從這些產(chǎn)品的定位也能看出,Anuttacon 的初衷就是做 AI + 游戲的一些前沿嘗試。
所以這次的 LPM-1.0 也不例外,你看名字,LPM 不就是 " 老婆們 " 么,這模型就是朝著把你的二次元老婆們復活來的。
蔡喵就是蔡浩宇

演示里根據(jù)之前米家的虛擬角色形象 " 鹿鳴 " 構(gòu)建了個真人版,可以在網(wǎng)頁中和她實時對話。
這里切換語言到中文后,讓她推薦二次元游戲,可以看到回答的效果非常自然,雖然播音腔濃厚了點,但聲音和表情的對應是融洽的。
而且不同于一般的視頻模型,這里的展示是有一種互動性,能持續(xù)進行的。
這就是它的特殊之處了,LPM-1.0 的核心定位不是一次性的生成,而是持續(xù)性的表演,讓對話變得具有交互感。
所以與其說它是視頻生成模型,倒不如說它更像是之前數(shù)字人技術的升級版。
數(shù)字人其實大伙兒也不陌生,只要點開過上面這種直播間,里面的主播就是數(shù)字人,輸入指令,你甚至能讓主播 " 喵 " 一百聲。。。
別看上面這位口型都對不準,背后燒的 Token 可不少。
為了支撐她跟觀眾實時互動,后臺需要一個低延遲語音對話 Agent,加上一套實時說話的人臉生成系統(tǒng),還得再套一層直播推流和運營控制臺,非常繁瑣。

官方也直接告訴大伙兒,模型主打的就是無限的視頻生成時長,只要你想,這對話能一直進行下去。。。

這次的 LPM 模型分了兩種,一種是離線的 Base 模型,和普通的視頻模型一樣,給定提示詞去生成視頻;另一種就是 Online 模型,就是最開始演示的那樣,具有交互感,實時生成的模型了。
這里先拿離線的 Base 基礎模型來舉例,生成 720p 分辨率的仿直播視頻,別的不說,就 " 活人感 " 這方面還是很出色的。
在對比視頻里,最左邊的 LPM-1.0 跟另外幾個模型相比,生成時間更長,持續(xù)性以及面部表情都更加自然。
一方面,人物能夠根據(jù)說的話配合一些肢體動作;另一方面,跟音頻的配合也更緊密,不會像其他模型那樣被背景音樂干擾,去跟不屬于角色的聲音對嘴型。

比如下面官方給的 Demo,就只有 480p 的分辨率,雖然看著還行,但確實不如離線模型生成的穩(wěn)定,動作大點就容易看出 AI 感。
再來看模型刻在名字里的表演,放到生成的視頻里,就是看人物的表情動作和情緒變化對不對得上。
畢竟咱也刷到過那種用力過猛的,或者動作肌無力的,只要表演的度把握不好,就容易出現(xiàn)偽人感。

不過,表演這塊兒人類還是很挑剔的,再加上蘿卜青菜各有所愛,所以到底哪種程度剛剛好咱也說不太準兒。
但要是后面能給一些更細的,更可控的參數(shù)選項,這發(fā)揮空間就更大了。

其實這得歸功于 LPM 新的流式架構(gòu)了,這架構(gòu)非常靈活,而參數(shù)大概在 17B(170 億)左右,原生支持文本,語音和圖片輸入,原理上后期也能拓展到視頻輸入。

這也是開源的好處,節(jié)省出這些造輪子的功夫,也好給咱帶來更多好活兒。

這依賴于新引入的交替式雙音頻注入機制:模型內(nèi)部的偶數(shù)層處理說話音頻,奇數(shù)層處理傾聽音頻。
說大白話就是把對話音頻拆成兩部分處理,一部分負責體現(xiàn)聆聽,另一部分負責表演說話,將交互拆成不同內(nèi)容進行處理,更細了,也就更自然了。

從模型的技術報告里能看出,他們的方案是不依賴單張圖片,而是拿 1 張全局圖、1-4 個身體多視角圖、1-8 種面部表情圖綜合起來控制。
除了加多參考圖,模型內(nèi)部還特意對表情圖和視角圖進行了特征區(qū)分,換句話說就是模型在生成視頻時,能認出特征的不同類型,不容易因為特征沖突而陷入混亂。

當然,由于這模型演示的場景人物動作的幅度都比較小,樣本不多,所以其他情況的效果還有待實測,只能看后續(xù)有沒有其他模型按這個思路試試了。

其實也不復雜,就是先拿主干模型生成粗略的草稿,再拿細化模型填補面部和動作細節(jié),分工明確,流水線式生成。
這么一來,推理步驟被壓縮成了 2+1,一共才三步,再加上一些流式編碼和并發(fā)執(zhí)行技術,整個對話過程的延遲被大幅降低。

而有了這些技術的助力,也就能支撐 LPM-1.0 去無限時長的實時(低延遲)對話了。

換句話說,雖然一些技術思路以及視頻的效果都挺亮眼,咱還用不到,而且到手里用起來具體什么樣也是未知。
不過就上面展示的效果來看,喜歡看直播的家人們有福了,因為以后屏幕前看起來形形色色的主播,后面坐著的可能連人都不是了。。。
撰文:風華
編輯:早起 & 江江 & 面線
美編:煥妍
圖片、資料來源:
LPM 技術報告,NVIDIA 官網(wǎng),X,小紅書,知乎,網(wǎng)絡


