" 快樂馬 " 后發(fā)趕超,阿里截胡快手字節(jié)。
4 月 14 日,字節(jié)跳動旗下火山引擎正式上線 Seedance2.0 系列 API 服務(wù),企業(yè)和個人用戶都可調(diào)用其視頻生成能力。
早期,上述服務(wù)需要高額預(yù)付、動輒千萬級 " 最低消耗 "。
算力足夠的情況下,API 大面積開放幾乎算是大模型商業(yè)化的主引擎。但有意思的是,近期被不少用戶詬病排隊時間長、變相漲價背刺用戶的 Seedance2.0,怎么突然就全面開放 API 了呢?
這背后,或許有上周爆火的 HappyHorse 的推動。

三天之后,阿里官方出面認(rèn)領(lǐng)了這匹 " 千里馬 "。
今年 3 月 34 日, OpenAI 宣布關(guān)停 Sora,所有人都以為,Seedance 2.0 要在 AI 視頻生成模型領(lǐng)域一統(tǒng)天下,阿里卻出其不意,截胡字節(jié) Seedance 與快手可靈。
AI 視頻生成模型這一賽道,三國殺格局雛形初顯,而且中國公司在全球拿下了主導(dǎo)權(quán)。
OpenAI 退場,中國大廠上位
2024 年以來,AI 視頻生成模型之所以能實現(xiàn)從 " 玩具 " 到 " 工具 " 的質(zhì)變,其核心驅(qū)動力在于底層技術(shù)范式的根本性轉(zhuǎn)變——從基于海量數(shù)據(jù)統(tǒng)計的模式匹配,升級為對物理世界規(guī)律進(jìn)行模擬與理解的 " 世界模型 "。這一轉(zhuǎn)變解決了此前技術(shù)無法逾越的兩大鴻溝,即物理合理性與長期一致性。其中,長期一致性更是實現(xiàn)影視級應(yīng)用的前提。
據(jù)媒體報道,HappyHorse 用一個統(tǒng)一的 Transformer 同時處理視頻和音頻,一次推理直接輸出帶聲音的成片,不需要后期拼接。這種有點特別的技術(shù)架構(gòu)(單流 Transformer 架構(gòu)),對提升長期一致性很有優(yōu)勢。
統(tǒng)一的 Transformer 直接處理長序列的混合 Token,其自注意力機(jī)制能夠捕捉視頻幀與音頻幀之間長距離的依賴關(guān)系。

根據(jù) Artificial Analysis 的評測指標(biāo)(滿分 5 分),HappyHorse 在物理一致性方面得分為 4.52,視覺質(zhì)量得分為 4.80,文本對齊得分為 4.18。這表明其在基礎(chǔ)一致性方面表現(xiàn)良好,但在復(fù)雜場景下的長期一致性仍有提升空間。
不過參考 Sora 的經(jīng)驗可知,長期一致性表現(xiàn)好≠商業(yè)可用性表現(xiàn)好。
根據(jù)央視財經(jīng)的報道,Sora 在實際應(yīng)用中,其長期一致性高度依賴大模型的 " 記憶 " 能力, 商業(yè)可用率極低,僅 5%-10% 的生成視頻能用于初步篩選,更像一個不可控的 " 抽卡游戲 "。
Sora 的關(guān)停,也并非源于技術(shù)升級的困難,而是一筆算不過來的經(jīng)濟(jì)賬。據(jù) Appfigures 估算,Sora 上線以來的應(yīng)用程序內(nèi)總收入僅約 210 萬美元,投入產(chǎn)出比接近 2500:1,堪稱 AI 史上最昂貴的 " 技術(shù)煙花 "。
硅谷風(fēng)投機(jī)構(gòu) a16z 合伙人 Olivia Moore 曾在社交媒體曬出 SensorTower 的監(jiān)測截圖,顯示 Sora APP 的 30 天用戶留存率為 1%,60 天留存率 0%。如此低的留存率,顯然不符合商業(yè)應(yīng)用的要求。
AI 發(fā)展到了今天,資本對無法變現(xiàn)、耗資巨大的技術(shù)突破態(tài)度已經(jīng)足夠理智,甚至是冷酷了。所以,正在籌備上市的 OpenAI 只能關(guān)停 Sora,并退回和迪士尼的 10 億美元合作款項。
而且 OpenAI 也需要集中精力繼續(xù)推進(jìn)世界模型的研發(fā)。畢竟從某種意義上來說,并不存在單獨的視頻大模型,視頻大模型更像是是世界模型和多模態(tài)技術(shù)融合進(jìn)程中的階段性里程碑。
目前頂級的視頻模型幾乎都基于 DiT 架構(gòu),這個架構(gòu)的前身是圖像生成 Diffusion,下一步很可能就是 Omni-Model。視頻只是這些模型在時間維度上插了幀,并在數(shù)據(jù)清洗時喂入了大量物理世界因果片段。
做視頻,是驗證時空預(yù)測能力的最低門檻。能做出視頻大模型的公司,理論上也可以把這種技術(shù)用來研發(fā)其他垂直領(lǐng)域的大模型 ——如果有足夠多優(yōu)質(zhì)的真實數(shù)據(jù)用來訓(xùn)練。
阿里的目標(biāo),顯然也不只是做出一個受歡迎的視頻生成工具。
AI 視頻大有潛力
視頻是 AI 大模型很好的垂直應(yīng)用方向,因為從流量邏輯看,視頻是 AI 目前唯一能無縫嵌入娛樂、社交、電商三大現(xiàn)金牛領(lǐng)域的模態(tài)。
ChatGPT(文本)的月活是億級,TikTok(視頻)的日活是十億級。人類天生就懶于閱讀文字,樂于消費視頻。字節(jié)能深入所有互聯(lián)網(wǎng)巨頭的業(yè)務(wù)腹地,也是因為它抓住了視頻這個關(guān)鍵點。
抖音上的視頻流數(shù)據(jù),涵蓋人物行為、物體運(yùn)動、場景交互等多維度的動態(tài)信息,每一幀都是真實世界規(guī)律的記錄。用這種優(yōu)質(zhì)數(shù)據(jù)訓(xùn)練出的垂直應(yīng)用 AI,很容易就贏在起跑線上。
根據(jù)極客公園測算,Seedance2.0 生成 15 秒視頻的可用率或達(dá)到 90%,相較此前行業(yè)內(nèi)大概 20% 的平均值,提升幅度較大。技術(shù)實力與商業(yè)可用性的雙重提升,讓 Seedance2.0 的爆火很容易理解。
而且 Seedance 2.0 的商業(yè)化推進(jìn),節(jié)奏感極強(qiáng)。先用 " 寵物貓狗暴揍哥斯拉 " 等病毒式模板引爆社交媒體的全民二創(chuàng)熱潮,完成零成本的流量引爆和用戶教育,在口碑和需求雙雙達(dá)到頂峰后,立即啟動商業(yè)化變現(xiàn)。
3 月 4 日,火山引擎公布商用定價:包含視頻輸入的場景 28 元 / 百萬 tokens,不含視頻輸入 46 元 / 百萬 tokens,折合純視頻生成成本約 0.95 元 / 秒。
緊接著,字節(jié)采取差異化定價面向市場、降低門檻開放公測的策略,于 4 月 2 日正式面向企業(yè)用戶開放 API 申請。至此,Seedance2.0 完成了從網(wǎng)紅 AI 玩具到企業(yè)生產(chǎn)工具的身份躍遷。
這也驗證了 AI 產(chǎn)業(yè)投資邏輯的變化,無論是公司內(nèi)部的資金還是外部的資金,都會流向更能垂直應(yīng)用、快速變現(xiàn)、貢獻(xiàn) ROI 的地方。B 端和 C 端的用戶在付費時,也同樣遵從這個底層邏輯。
一個值得注意的細(xì)節(jié)是,HappyHorse 原生支持英語、普通話、粵語、日語、韓語、德語、法語的唇形同步,這很可能是為了讓 HappyHorse 生成的視頻能進(jìn)入到電商(包括跨境電商)等實際應(yīng)用場景中。
畢竟張迪作為快手可靈和阿里 HappyHorse 之父,不僅懂技術(shù),也很懂業(yè)務(wù)(這一點從他的職業(yè)履歷就能看出),天然就擅長把業(yè)務(wù)思維帶入到 HappyHorse 的技術(shù)研發(fā)中。
一個佐證是,快手可靈的商業(yè)化效果已經(jīng)有了財報數(shù)據(jù)支撐。2025 年第四季度,可靈 AI 營業(yè)收入達(dá)到 3.4 億元;2025 年 12 月單月收入突破 2000 萬美元,年化收入運(yùn)行率(ARR)達(dá)到 2.4 億美元。
而且,HappyHorse 所屬的阿里 ATH 創(chuàng)新事業(yè)部,早已喊出 " 創(chuàng)造 Token、輸送 Token、應(yīng)用 Token" 的口號。這種以 "Token 消耗量 " 為核心 KPI 的組織設(shè)計,決定了其下所有技術(shù)嘗試,其實都會落腳在商業(yè)化應(yīng)用上。
和 Seedance 2.0 一樣,HappyHorse 從匿名沖榜到官宣認(rèn)領(lǐng),再到計劃開放 API、接入阿里百煉 MaaS 平臺,商業(yè)化推進(jìn)的節(jié)奏也非???。
考慮到 HappyHorse 團(tuán)隊負(fù)責(zé)人鄭波同時兼任阿里媽媽 CTO,未來 HappyHorse 的應(yīng)用很可能要與電商業(yè)務(wù)深度綁定。
不止工具,生態(tài)協(xié)同
讓 AI 與原本的核心業(yè)務(wù)深度協(xié)同,帶來更大的生態(tài)繁榮,是現(xiàn)在每個互聯(lián)網(wǎng)巨頭都看重的事。除此之外,阿里還有一個多年的心愿,即打造流量入口,反哺電商等核心業(yè)務(wù)。
理想情況下,HappyHorse 可以同時踩中這兩個關(guān)鍵點。
作為視頻生成工具,HappyHorse 可以應(yīng)用于商品廣告、虛擬主播等電商業(yè)務(wù)場景中。如果還能在 AI 內(nèi)容生成的源頭占據(jù)一席之地,就能為電商交易等業(yè)務(wù)提供內(nèi)生流量,從而構(gòu)建 " 內(nèi)容 - 交易 - 履約 " 的完整閉環(huán)。
這并非毫無根據(jù)的想象,畢竟 Seedance2.0 已經(jīng)殺入電商領(lǐng)域了。
4 月 2 日,AI Agent 公司 NoDesk AI 發(fā)布旗下產(chǎn)品 DeskClaw 新版本,正式接入 Seedance2.0。這是 Claw 賽道先一步明確聚焦垂直電商、也是電商領(lǐng)域首批接入 Seedance2.0 的 AI 產(chǎn)品。
對于大部分的投資者和從業(yè)人員來說,阿里作為電商一哥,似乎沒有理由做不到類似的事情。
HappyHorse 這種阿里系視頻生成工具的出現(xiàn),某種意義上來說是符合公眾預(yù)期的,畢竟,讓商家可以在電商平臺上直接用上穩(wěn)定、可靠的視頻生成工具,才是邏輯最順暢的做法。
而內(nèi)容生態(tài)領(lǐng)域,只要 HappyHorse 足夠穩(wěn)定、可靠并且便宜,同樣可以殺出一片天地來。
對大部分的內(nèi)容創(chuàng)作者來說,成本可控是非常重要,并不只是簡單的價格高了或者低了的問題。
無論是個人 UP 主、小型工作室還是 MCN 機(jī)構(gòu),其內(nèi)容生產(chǎn)都有預(yù)算和周期。一個價格頻繁波動、排隊時間無法預(yù)估的工具,會直接打亂整個生產(chǎn)計劃,讓項目無法報價、無法按期交付。
Seedance2.0 現(xiàn)在恰恰就有這樣的問題和風(fēng)險。一方面,高峰期普通用戶排隊可達(dá) 8 萬人,等待時間超過 7 小時,即便是付費高級會員也難以幸免。
另一方面,即夢平臺在短期內(nèi)連續(xù)調(diào)價,據(jù)說制作一部 2 分鐘 AI 漫劇的純素材生成成本,已經(jīng)從最初的約 7 元飆升至 80 元,擊穿了許多中小團(tuán)隊的商業(yè)模式底線。
" 字節(jié)在年費之上推出 vvip 等升級服務(wù),算是變相提價了,就是因為 Seedance 一家獨大 ", 有用戶向《財經(jīng)故事薈》吐槽," 現(xiàn)在 HappyHorse 上線,估計字節(jié)要掂量掂量了。"
只要 HappyHorse 質(zhì)量穩(wěn)定,又能做到體驗好、定價低,就可以從競爭對手那里挖到到一批有真實內(nèi)容生成需求的客戶了。或許聰明的阿里云銷售,已經(jīng)開始接觸火山引擎的客戶了。
字節(jié)今天放開 Seedance2.0 的 API 接入,就是在主動降低用戶的使用門檻,有了 HappyHorse 這個對手,接下來雙方大打價格戰(zhàn),也是大概率事件。
字節(jié)、快手、阿里三國殺,模型能力你追我趕,算力成本穩(wěn)中有降,讓越來越多的中小創(chuàng)業(yè)者可以享受到技術(shù)普惠的紅利,也能快速引爆市場——這才是我們想看到的 AI 時代。