正在閱讀:

價格戰(zhàn)開打,AI視頻的“DeepSeek時刻”還遠(yuǎn)嗎?

掃一掃下載界面新聞APP

價格戰(zhàn)開打,AI視頻的“DeepSeek時刻”還遠(yuǎn)嗎?

“下一個DeepSeek”,會誕生在AI視頻這個領(lǐng)域嗎?

文 | 娛樂資本論 James

在今年春節(jié)期間DeepSeek帶來的狂飆突進(jìn)之后,全世界都在尋找下一個DeepSeek。

2月底,阿里通義萬相Wanx 2.1模型開源,僅6天后就反超DeepSeek-R1,登頂模型熱榜、模型空間榜兩大榜單。此后,騰訊混元、階躍星辰、昆侖萬維等新的開源視頻生成大模型陸續(xù)有來。

“下一個DeepSeek”,會誕生在AI視頻這個領(lǐng)域嗎?

不僅是專業(yè)AI視頻創(chuàng)作者,也包括傳統(tǒng)影視工業(yè),短劇產(chǎn)業(yè)鏈,以及網(wǎng)文平臺等IP所有者,都對此高度關(guān)注。

所謂“下一個DeepSeek”可以簡單理解為“模型效果位于第一梯隊+開源”。最核心的問題在于,一個足夠優(yōu)秀的開源視頻大模型,會不會讓現(xiàn)在的視頻生成頭部平臺大幅度讓利,讓視頻生成變成“白菜價”?

而果真如此,之后又會有什么連鎖反應(yīng)?

開源兇猛

事情首先要從X(推特)上面突然多出來的一大堆AI美女視頻說起。

阿里巴巴于2月25日宣布開源通義萬相2.1視頻生成模型,不僅鞏固了中國在全球AI開源領(lǐng)域的領(lǐng)先地位,更是引爆了技術(shù)愛好者的激情。

據(jù)介紹,該模型支持文生視頻、圖生視頻任務(wù),通過低顯存需求降低技術(shù)門檻,并支持無限長1080P視頻編解碼,14B版本在權(quán)威評測Vbench中超越Sora、Luma等海外知名模型。

但是更重要的是,Wanx 2.1模型不僅在開源許可方式上極為寬松,模型本身也有很多能力是之前的開源,乃至很多閉源模型難以做到的。

它是“全球首個支持中文文字特效生成”的視頻模型,能深度理解“中國風(fēng)”指令(如生成水墨暈染的“?!弊忠曨l)。它可以精準(zhǔn)模擬物理規(guī)律(如雨滴濺落的動態(tài)效果)。

而經(jīng)過X的網(wǎng)友實測,它對于一些特定指令,在模型層并沒有屏蔽太多的關(guān)鍵詞,所以生成的內(nèi)容也更為開放和多元,驅(qū)動了大量的“自來水”傳播。

萬相2.1開源后6天內(nèi)即登頂Hugging Face趨勢榜,也就是DeepSeek在爆火出圈之前已經(jīng)在的那個榜單。它與此后開源的文本大模型QWQ-32B先后霸榜,阿里也被一些開發(fā)者稱為“源神”。

開源鯰魚攪動市場,國內(nèi)其它一些重要的開源視頻大模型也在這幾個月內(nèi)密集發(fā)布:

騰訊混元HunyuanVideo-I2V 已開源推理代碼和權(quán)重,有130億參數(shù),支持5秒短視頻生成,新增對口型、舞蹈動作驅(qū)動功能,支持中英文生成,宣稱在文本一致性、運(yùn)動質(zhì)量等維度表現(xiàn)領(lǐng)先。

階躍星辰 Step-Video-T2V 開源模型支持復(fù)雜場景生成,實測中在人物動作和物理規(guī)律方面,如芭蕾舞動作的生成等表現(xiàn)較優(yōu)。

昆侖萬維 SkyReels-V1 面向AI短劇創(chuàng)作,基于13B參數(shù)微調(diào)好萊塢影視數(shù)據(jù),支持T2V和I2V,生成電影級光影和表情動作,開源一周內(nèi)Hugging Face下載量超2.4萬次。其短劇應(yīng)用DramaWave和FreeReels全球下載量達(dá)2309萬次,內(nèi)購收入流水超780萬美元,如果其中實現(xiàn)實拍和AI短劇混合推送,那么盈利空間確實不小。

相應(yīng)地,閉源的視頻大模型也不甘落后。1月底,生數(shù)科技公布Vidu 2.0 版本,生成速度最快不到10秒,單秒視頻成本僅需"4 分錢";官網(wǎng)同時推出錯峰模式(低峰時段不限量生成,且不扣積分)。

生數(shù)近日動作頻頻,先是老總唐家渝挖來原字節(jié)火山引擎AI解決方案負(fù)責(zé)人駱怡航加盟,并出任新的CEO;然后又入住聯(lián)想小天,走向PC預(yù)裝的拉新之路,還跟兩位好萊塢導(dǎo)演組建的一個新動畫工作室聯(lián)手,打算合拍一些AI動畫大片。

字節(jié)除了主打即夢品牌之外,去年底開始也在大力地推的“豆包”客戶端試水視頻生成入口,并在今年春節(jié)前后全量上線。豆包的視頻生成功能免費(fèi),但每天限制10次;跟即夢相比,在清晰度和能力上也有一些限制。

價格戰(zhàn)前夜?

DeepSeek通過技術(shù)優(yōu)化,將原本高高在上的推理模型全面普及,且成本大為壓縮,API定價僅為OpenAI同類模型的3%。

這迫使國內(nèi)外閉源大模型廠商緊急調(diào)整。OpenAI緊急將GPT-4.5、深度研究等功能從200美元一個月的最高檔會員下放,o1也釋放了思維鏈供用戶參考。百度原本收費(fèi)50元一個月的文心一言會員4月1日起全面免費(fèi)。阿里通義、騰訊混元大模型API價格下調(diào)至每百萬tokens 0.1元區(qū)間。

目前,作為國內(nèi)視頻生成領(lǐng)域兩大“扛把子”,可靈和即夢這兩個平臺的會員定價非常堅挺,分別是66元/月和69元/月。雖然包年略便宜,有時也會有折扣,但總體上單次生成的費(fèi)用在約0.6元/秒。

由于缺乏局部修改功能,創(chuàng)作者需依賴隨機(jī)生成后“抽卡”完成內(nèi)容制作,單個鏡頭動不動就要反復(fù)生成幾十次。

由傳統(tǒng)廣告公司轉(zhuǎn)型AI短劇的夫子AI團(tuán)隊介紹,他們開通了可靈和即夢的包年會員,兩家年費(fèi)合計5594元(平均每月約466元)。他們制作的AI短劇《我在陰間送外賣》,單個鏡頭需「抽卡」30次以上,每次花費(fèi)約3.5元,單鏡頭成本超100元,整部短劇制作成本約5000元,最終播放量超90萬,盡管沒有直接收入,但也吸引了商業(yè)客戶詢單。

由廣告人轉(zhuǎn)型AI科幻短片的希希叔叔,選擇制作非系列化的單集短片如《失敗者宇宙》,降低對畫面一致性的高要求。他每月花費(fèi)約200元開通可靈+即夢會員,單部短片成本控制在2000元以內(nèi)。作為個人創(chuàng)作者,他通過會員積分和「閑時折扣」壓縮成本,一部短片的制作周期約7天。

由UI設(shè)計師轉(zhuǎn)型AI短劇的丹尼,主要依賴本職工資支撐創(chuàng)作。他制作的《白骨精前傳》抽卡花費(fèi)約5000-6000元,平均每月投入超1000元。丹尼嘗試過海外服務(wù),但Runway的價格是可靈的10倍(約1美元/5秒視頻),因此堅持使用國內(nèi)平臺。

對比海外定價,國外平臺費(fèi)用平均約為國內(nèi)5-6倍(就像是國內(nèi)1元=國外1美元)。至于谷歌最新發(fā)布的Veo 2視頻生成模型,每秒0.5美元的定價更為離譜,4秒鐘就15塊錢了。

參照DeepSeek引發(fā)的“按厘計價”風(fēng)潮,一個足夠普及的視頻生成大模型,有望逼迫頭部閉源模型的API價格下降到原本的1/10;企業(yè)服務(wù)則可能從萬元級的項目制,轉(zhuǎn)向百元級的訂閱制就能滿足,“大模型施工隊”二次失業(yè)在即。

若開源視頻大模型復(fù)刻DeepSeek路徑,當(dāng)前可靈、即夢等,乃至Sora、Veo等海外模型的商業(yè)模式就都有可能面臨巨大的挑戰(zhàn)。

視頻的特殊性和普遍性

萬相2.1雖好,但還真的沒到DeepSeek那種連友商都要接入的程度,所以暫時價格戰(zhàn)還沒有打起來。實際上,現(xiàn)在市面上任何一個AI視頻大模型,其效果都還沒到能完全頂替真人實拍的程度,其中“油性”或者說“AI味兒”還是相當(dāng)重的,就更不用說亂碼和鬼畫符的幻覺問題了。

即使有商業(yè)化的心思,人們也不敢貿(mào)然給AI短片配上跟人工短片一樣的價格。湖南臺風(fēng)芒App播出的《興安嶺詭事》的制作成本60萬,全集解鎖只需要5.9元,跟真人微短劇顯然不在一個檔次。該劇最終播放量鎖定在5000萬次的量級。

有人樂觀地將萬相2.1比作DeepSeek的V3或者V2時刻,期待著一個視頻版“R1”會駕著七彩祥云從天而降,帶來業(yè)界期盼已久的沖擊。

不過,實際情況可能無法如此簡單類比。

目前國內(nèi)AI視頻創(chuàng)作者主要使用的平臺,實際上各有特色??伸`的核心優(yōu)勢在于真實的人類動作與高清晰度??煽诳蓸窂V告團(tuán)隊認(rèn)為可靈生成的人類動作更自然,且畫面清晰度領(lǐng)先于其他工具(如Leonardo、Runway)。

在娛樂資本論此前的報道中,創(chuàng)作者董嘉琦提到可靈對文本的語義理解能力更強(qiáng),模型迭代快,能快速響應(yīng)復(fù)雜需求;擅長生成符合東方審美的場景和人物,適合廣告、短劇等需要真實感和高完成度的場景。

創(chuàng)作者朱旭評價,即夢對物理世界的運(yùn)動邏輯(如物體碰撞、光影變化)模擬更精準(zhǔn),適合現(xiàn)實類短片、紀(jì)錄片風(fēng)格內(nèi)容。即夢也較早推出首尾幀控制功能。

生數(shù)Vidu在動漫風(fēng)格化、多主體參考功能上表現(xiàn)突出(如生成多角色互動鏡頭)。正如它在《毒液:最后一舞》的水墨宣傳片體現(xiàn)的,生成的鏡頭運(yùn)鏡更具創(chuàng)意,適合抽象或藝術(shù)化表達(dá)。因此它受到二次元動畫、藝術(shù)實驗短片作者的歡迎。

Runway、Luma等國外工具則常被用于歐美風(fēng)格的創(chuàng)作。

所以,專業(yè)視頻團(tuán)隊的工作流很難完全脫離對定價很貴的“兩巨頭”的慣性使用,正如在作圖領(lǐng)域有豆包的替代,但MidJourney或Recraft的特定風(fēng)格依然有一定依賴性一樣。

現(xiàn)在開源視頻模型的發(fā)展還不到DeepSeek那個程度,但視頻生成領(lǐng)域的一場價格戰(zhàn),可能已經(jīng)箭在弦上。

同屬閉源模型的生數(shù)科技Vidu,在推出2.0版以后也上線全新的收費(fèi)套餐,直接將每秒單價成本降至最低4分錢。以各家720P每秒單價計算,Vidu 2.0為 0.258元/秒,是行業(yè)平均價格的不到一半;而且官網(wǎng)“錯峰模式”在半夜抽卡,甚至是全免費(fèi)。

去年底,生數(shù)科技投融資負(fù)責(zé)人樊家睿對娛樂資本論表示,今年Vidu預(yù)計在生成速度、多元一致性和多模態(tài)真正融合方面會有重大突破?!吧伤俣确矫?,Vidu將進(jìn)一步“逼近極限”。把速度提上來,意味著把性價比提上來,AI視頻生成會更普及、更高效?!?/p>

全網(wǎng)都在考慮“你們大模型全開源了,那到底咋掙錢啊”的問題。不過就算沒有開源震撼彈,閉源廠商一樣會卷價格,因為視頻大模型背后沒有秘密。

正如Manus聯(lián)合創(chuàng)始人張濤此前所言,光鮮亮麗的Sora背后也是“大算力出奇跡”的常規(guī)路線,是算力、算法、數(shù)據(jù)堆疊而成的結(jié)果。各家閉源廠商用常規(guī)的步伐,已經(jīng)可以快速走量,壓低價格。

年初震撼業(yè)界的Sora最后是“起個大早,趕個晚集”。在國內(nèi)視頻生成模型的軍備競賽中,效果迅速到達(dá)世界領(lǐng)先水平,得到了全球客戶的認(rèn)可。去年圣誕節(jié)可口可樂的廣告使用了可靈作為主力工具。

根據(jù)AI產(chǎn)品榜統(tǒng)計的2月份應(yīng)用(不含網(wǎng)站端,下同)數(shù)據(jù),可靈海外版在全球認(rèn)知更高,占到出??偘竦牡?2位,海外版的月活環(huán)比增幅也達(dá)到90.55%。相比之下,曾經(jīng)的當(dāng)紅炸子雞Luma月活下降了31%,是2月份統(tǒng)計中降速最大的應(yīng)用。

現(xiàn)在的問題顯然是,這個賽道里的參與者還不夠多。

API和本地部署問題

影響定價的另一個變量是,如果云計算平臺放開了部署一些視頻大模型的API,或者用戶在自己的電腦上裝稍微小一點(diǎn)的模型,使得普通視頻的制作成本降低,會不會牽動頭部模型降價?

DeepSeek官網(wǎng)和官方API在春節(jié)期間被突然涌入的流量沖擊到癱瘓,但所謂“一鯨落,萬物生”,云計算提供商早一天部署R1,用量早一天暴漲。

微軟、騰訊、百度均一反常態(tài),第一時間在云服務(wù)和C端產(chǎn)品兩方面接入DeepSeek。硅基流動的日均調(diào)用量突破千億token,較半年前增長十倍,從名不見經(jīng)傳的小型云一下變得路人皆知。

現(xiàn)在來看視頻生成模型方面。近期比較出名的開源模型,都已經(jīng)在HuggingFace和魔搭等地開放使用。如果廠商有自己的云,也會第一時間上線部署。

作為不自帶云的小廠,階躍的模型和Vidu等類似,都是優(yōu)先服務(wù)于自家官網(wǎng)平臺,目前首要任務(wù)還是獲得更多人的接觸和使用。

不過,所有這些服務(wù)都沒有出現(xiàn)那種“國運(yùn)級別”的用量暴漲。

當(dāng)然,中小型云服務(wù)商很樂意接入盡可能全面的開源模型,以便將用戶鎖定在自己的服務(wù)內(nèi)。去年11月,硅基流動上線了由Lightricks開源的視頻生成模型LTX-Video,這是一個基于DiT架構(gòu)的2B參數(shù)模型,能夠在832*480分辨率下生成24 FPS的視頻。

但另一個現(xiàn)實問題是,對視頻生成模型API的調(diào)用,目前還缺乏一個普遍的方案。Chatbox、Cherry Studio等網(wǎng)頁UI或客戶端,都只覆蓋了文字對話或者文生圖界面,對視頻生成的界面、參數(shù)等尚未統(tǒng)一。

而且,從文本、圖片到視頻,其token的消耗和浪費(fèi)程度是倍數(shù)上升,相對的用戶用量也逐級下降。

視頻還有一個額外問題,只要預(yù)覽每次“抽卡”成果,都可能帶來很大的服務(wù)器負(fù)擔(dān)。娛樂資本論之前探討為什么國內(nèi)視頻網(wǎng)站的畫面都是“糊的”,曾經(jīng)提到了平臺出于服務(wù)器成本壓力,不得不降低碼率,用銳化等方法蒙混過關(guān)的苦衷。

云服務(wù)商自己也需要做一些性能調(diào)優(yōu),例如硅基流動的OneDiff加速庫,據(jù)說可以使Stable Diffusion出圖效率提升3倍。不過如何將類似經(jīng)驗遷移到視頻上,真正做到給普通用戶省錢,形成對商用模型的競爭態(tài)勢,現(xiàn)在還沒個譜。

至于本地部署——在自己的電腦放一個模型,當(dāng)然是免費(fèi)不限量的,但之前的問題是要么笨,要么慢。

DeepSeek-V3和R1有大量社區(qū)用戶結(jié)合llama、qwen進(jìn)行蒸餾,使其有機(jī)會運(yùn)行在PC、Mac甚至手機(jī)上面。這是兩年多以來,用戶終于可以斷網(wǎng)運(yùn)行一個基本可用的模型,本地大模型不再是“樣子貨”。

但是在圖片和視頻生成方面,還沒有迎來這樣的時刻,目前本地小模型依然處于用起來很困難的狀態(tài)。用戶可以在本地部署Stable Diffusion已經(jīng)有很長時間了,但Midjourney一直也沒有因此而降價。

通義萬相2.1小型的1.3B版本可在消費(fèi)級顯卡(如RTX4090)運(yùn)行,生成480P視頻僅需4分鐘——但沒有人向你保證本機(jī)生成480P視頻可以解決畫質(zhì)、一致性、細(xì)節(jié)和幻覺問題。

總之,視頻和圖片一樣,如果一次生成不可局部修改,必須“抽卡”的局面不改變,那么現(xiàn)有模型僅憑畫風(fēng)及連續(xù)性上的細(xì)微區(qū)別,就會一直維持各自的江湖地位。

AI視頻創(chuàng)作徹底下沉

根據(jù)AI產(chǎn)品榜2月份應(yīng)用數(shù)據(jù),國內(nèi)總榜中即夢排行第9,月活環(huán)比增加106%;Minimax的海螺第19(不過這是分拆改名之前的數(shù)據(jù)),環(huán)比月活也增加10%,同時海螺以日均使用時長6.63分鐘排在國內(nèi)時長榜的第2位;可靈獨(dú)立客戶端第23,月活環(huán)比增加113%。

這意味著過去一個月,一些頭部視頻生成大模型的C端使用都有了大幅度增長。App的增速上升,無疑也意味著視頻制作的下沉,因為專業(yè)創(chuàng)作者更喜歡用Web端來生成。

隨著豆包和元寶這兩個通用AI客戶端都加入了視頻創(chuàng)作功能,更多下沉用戶認(rèn)知到AI視頻,并且在日常生活中嘗試,只是時間問題。

在娛樂資本論 ·視智未來的《對話AI創(chuàng)業(yè)者》節(jié)目中,閃剪智能的創(chuàng)始人嚴(yán)華培提到,由于算法優(yōu)化和技術(shù)更新,數(shù)字人的制作定價從最初的一個8000元,降至去年8月時的300多元。通過訂閱制,會員可以付費(fèi)后多次修改數(shù)字人形象。

但如果是以大模型路線,而不是傳統(tǒng)數(shù)字人路線來做,那么數(shù)字人可能就會低至幾塊錢甚至免費(fèi)了,它可能會從大廠和媒體,降到網(wǎng)店老板之后,進(jìn)一步下沉到菜市場的攤主。

回想DeepSeek發(fā)布之后,似乎有很多人的“任督二脈”突然被打通。它觸達(dá)了以前可能從未接觸過、也從未想象過的圈層。

父母輩使用DeepSeek詢問子女的婚姻解法,年輕人則為自己算命、購買開運(yùn)寶石,或是通過聯(lián)網(wǎng)搜索充當(dāng)購物導(dǎo)購。也有越來越多AI網(wǎng)文充斥各大平臺,使人類作者和編輯感到痛苦。

在抖音快手等將拍短視頻的自由下放給所有人之后,視頻大模型的快速普及將是“技術(shù)民主化”的又一次飛躍。

事實證明,一項技術(shù)不是要等到發(fā)展成熟了才向下推廣。當(dāng)前的視頻生成還存在清晰度、幻覺等嚴(yán)重的問題,但這可能并不是海量普通人在使用時會考慮的問題。

近期一些典型的“AI造謠”案件,不論是地震中小孩子的假圖片,還是娛樂資本論曾經(jīng)揭露的“江西幫”炮制所謂“西安爆炸”假新聞,無一例外,并沒有嘗試做得特別逼真,只是用了最簡單的,甚至是兩三年前的過期AI技術(shù)。

當(dāng)"抽卡自由"徹底釋放人類的表達(dá)欲,視頻內(nèi)容將會匯入文本和圖片的洪流,它們早已跟AI難解難分。我們和我們的后代所處的世界,將被生成式內(nèi)容共同塑造和改變。

 
本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

價格戰(zhàn)開打,AI視頻的“DeepSeek時刻”還遠(yuǎn)嗎?

“下一個DeepSeek”,會誕生在AI視頻這個領(lǐng)域嗎?

文 | 娛樂資本論 James

在今年春節(jié)期間DeepSeek帶來的狂飆突進(jìn)之后,全世界都在尋找下一個DeepSeek。

2月底,阿里通義萬相Wanx 2.1模型開源,僅6天后就反超DeepSeek-R1,登頂模型熱榜、模型空間榜兩大榜單。此后,騰訊混元、階躍星辰、昆侖萬維等新的開源視頻生成大模型陸續(xù)有來。

“下一個DeepSeek”,會誕生在AI視頻這個領(lǐng)域嗎?

不僅是專業(yè)AI視頻創(chuàng)作者,也包括傳統(tǒng)影視工業(yè),短劇產(chǎn)業(yè)鏈,以及網(wǎng)文平臺等IP所有者,都對此高度關(guān)注。

所謂“下一個DeepSeek”可以簡單理解為“模型效果位于第一梯隊+開源”。最核心的問題在于,一個足夠優(yōu)秀的開源視頻大模型,會不會讓現(xiàn)在的視頻生成頭部平臺大幅度讓利,讓視頻生成變成“白菜價”?

而果真如此,之后又會有什么連鎖反應(yīng)?

開源兇猛

事情首先要從X(推特)上面突然多出來的一大堆AI美女視頻說起。

阿里巴巴于2月25日宣布開源通義萬相2.1視頻生成模型,不僅鞏固了中國在全球AI開源領(lǐng)域的領(lǐng)先地位,更是引爆了技術(shù)愛好者的激情。

據(jù)介紹,該模型支持文生視頻、圖生視頻任務(wù),通過低顯存需求降低技術(shù)門檻,并支持無限長1080P視頻編解碼,14B版本在權(quán)威評測Vbench中超越Sora、Luma等海外知名模型。

但是更重要的是,Wanx 2.1模型不僅在開源許可方式上極為寬松,模型本身也有很多能力是之前的開源,乃至很多閉源模型難以做到的。

它是“全球首個支持中文文字特效生成”的視頻模型,能深度理解“中國風(fēng)”指令(如生成水墨暈染的“?!弊忠曨l)。它可以精準(zhǔn)模擬物理規(guī)律(如雨滴濺落的動態(tài)效果)。

而經(jīng)過X的網(wǎng)友實測,它對于一些特定指令,在模型層并沒有屏蔽太多的關(guān)鍵詞,所以生成的內(nèi)容也更為開放和多元,驅(qū)動了大量的“自來水”傳播。

萬相2.1開源后6天內(nèi)即登頂Hugging Face趨勢榜,也就是DeepSeek在爆火出圈之前已經(jīng)在的那個榜單。它與此后開源的文本大模型QWQ-32B先后霸榜,阿里也被一些開發(fā)者稱為“源神”。

開源鯰魚攪動市場,國內(nèi)其它一些重要的開源視頻大模型也在這幾個月內(nèi)密集發(fā)布:

騰訊混元HunyuanVideo-I2V 已開源推理代碼和權(quán)重,有130億參數(shù),支持5秒短視頻生成,新增對口型、舞蹈動作驅(qū)動功能,支持中英文生成,宣稱在文本一致性、運(yùn)動質(zhì)量等維度表現(xiàn)領(lǐng)先。

階躍星辰 Step-Video-T2V 開源模型支持復(fù)雜場景生成,實測中在人物動作和物理規(guī)律方面,如芭蕾舞動作的生成等表現(xiàn)較優(yōu)。

昆侖萬維 SkyReels-V1 面向AI短劇創(chuàng)作,基于13B參數(shù)微調(diào)好萊塢影視數(shù)據(jù),支持T2V和I2V,生成電影級光影和表情動作,開源一周內(nèi)Hugging Face下載量超2.4萬次。其短劇應(yīng)用DramaWave和FreeReels全球下載量達(dá)2309萬次,內(nèi)購收入流水超780萬美元,如果其中實現(xiàn)實拍和AI短劇混合推送,那么盈利空間確實不小。

相應(yīng)地,閉源的視頻大模型也不甘落后。1月底,生數(shù)科技公布Vidu 2.0 版本,生成速度最快不到10秒,單秒視頻成本僅需"4 分錢";官網(wǎng)同時推出錯峰模式(低峰時段不限量生成,且不扣積分)。

生數(shù)近日動作頻頻,先是老總唐家渝挖來原字節(jié)火山引擎AI解決方案負(fù)責(zé)人駱怡航加盟,并出任新的CEO;然后又入住聯(lián)想小天,走向PC預(yù)裝的拉新之路,還跟兩位好萊塢導(dǎo)演組建的一個新動畫工作室聯(lián)手,打算合拍一些AI動畫大片。

字節(jié)除了主打即夢品牌之外,去年底開始也在大力地推的“豆包”客戶端試水視頻生成入口,并在今年春節(jié)前后全量上線。豆包的視頻生成功能免費(fèi),但每天限制10次;跟即夢相比,在清晰度和能力上也有一些限制。

價格戰(zhàn)前夜?

DeepSeek通過技術(shù)優(yōu)化,將原本高高在上的推理模型全面普及,且成本大為壓縮,API定價僅為OpenAI同類模型的3%。

這迫使國內(nèi)外閉源大模型廠商緊急調(diào)整。OpenAI緊急將GPT-4.5、深度研究等功能從200美元一個月的最高檔會員下放,o1也釋放了思維鏈供用戶參考。百度原本收費(fèi)50元一個月的文心一言會員4月1日起全面免費(fèi)。阿里通義、騰訊混元大模型API價格下調(diào)至每百萬tokens 0.1元區(qū)間。

目前,作為國內(nèi)視頻生成領(lǐng)域兩大“扛把子”,可靈和即夢這兩個平臺的會員定價非常堅挺,分別是66元/月和69元/月。雖然包年略便宜,有時也會有折扣,但總體上單次生成的費(fèi)用在約0.6元/秒。

由于缺乏局部修改功能,創(chuàng)作者需依賴隨機(jī)生成后“抽卡”完成內(nèi)容制作,單個鏡頭動不動就要反復(fù)生成幾十次。

由傳統(tǒng)廣告公司轉(zhuǎn)型AI短劇的夫子AI團(tuán)隊介紹,他們開通了可靈和即夢的包年會員,兩家年費(fèi)合計5594元(平均每月約466元)。他們制作的AI短劇《我在陰間送外賣》,單個鏡頭需「抽卡」30次以上,每次花費(fèi)約3.5元,單鏡頭成本超100元,整部短劇制作成本約5000元,最終播放量超90萬,盡管沒有直接收入,但也吸引了商業(yè)客戶詢單。

由廣告人轉(zhuǎn)型AI科幻短片的希希叔叔,選擇制作非系列化的單集短片如《失敗者宇宙》,降低對畫面一致性的高要求。他每月花費(fèi)約200元開通可靈+即夢會員,單部短片成本控制在2000元以內(nèi)。作為個人創(chuàng)作者,他通過會員積分和「閑時折扣」壓縮成本,一部短片的制作周期約7天。

由UI設(shè)計師轉(zhuǎn)型AI短劇的丹尼,主要依賴本職工資支撐創(chuàng)作。他制作的《白骨精前傳》抽卡花費(fèi)約5000-6000元,平均每月投入超1000元。丹尼嘗試過海外服務(wù),但Runway的價格是可靈的10倍(約1美元/5秒視頻),因此堅持使用國內(nèi)平臺。

對比海外定價,國外平臺費(fèi)用平均約為國內(nèi)5-6倍(就像是國內(nèi)1元=國外1美元)。至于谷歌最新發(fā)布的Veo 2視頻生成模型,每秒0.5美元的定價更為離譜,4秒鐘就15塊錢了。

參照DeepSeek引發(fā)的“按厘計價”風(fēng)潮,一個足夠普及的視頻生成大模型,有望逼迫頭部閉源模型的API價格下降到原本的1/10;企業(yè)服務(wù)則可能從萬元級的項目制,轉(zhuǎn)向百元級的訂閱制就能滿足,“大模型施工隊”二次失業(yè)在即。

若開源視頻大模型復(fù)刻DeepSeek路徑,當(dāng)前可靈、即夢等,乃至Sora、Veo等海外模型的商業(yè)模式就都有可能面臨巨大的挑戰(zhàn)。

視頻的特殊性和普遍性

萬相2.1雖好,但還真的沒到DeepSeek那種連友商都要接入的程度,所以暫時價格戰(zhàn)還沒有打起來。實際上,現(xiàn)在市面上任何一個AI視頻大模型,其效果都還沒到能完全頂替真人實拍的程度,其中“油性”或者說“AI味兒”還是相當(dāng)重的,就更不用說亂碼和鬼畫符的幻覺問題了。

即使有商業(yè)化的心思,人們也不敢貿(mào)然給AI短片配上跟人工短片一樣的價格。湖南臺風(fēng)芒App播出的《興安嶺詭事》的制作成本60萬,全集解鎖只需要5.9元,跟真人微短劇顯然不在一個檔次。該劇最終播放量鎖定在5000萬次的量級。

有人樂觀地將萬相2.1比作DeepSeek的V3或者V2時刻,期待著一個視頻版“R1”會駕著七彩祥云從天而降,帶來業(yè)界期盼已久的沖擊。

不過,實際情況可能無法如此簡單類比。

目前國內(nèi)AI視頻創(chuàng)作者主要使用的平臺,實際上各有特色??伸`的核心優(yōu)勢在于真實的人類動作與高清晰度??煽诳蓸窂V告團(tuán)隊認(rèn)為可靈生成的人類動作更自然,且畫面清晰度領(lǐng)先于其他工具(如Leonardo、Runway)。

在娛樂資本論此前的報道中,創(chuàng)作者董嘉琦提到可靈對文本的語義理解能力更強(qiáng),模型迭代快,能快速響應(yīng)復(fù)雜需求;擅長生成符合東方審美的場景和人物,適合廣告、短劇等需要真實感和高完成度的場景。

創(chuàng)作者朱旭評價,即夢對物理世界的運(yùn)動邏輯(如物體碰撞、光影變化)模擬更精準(zhǔn),適合現(xiàn)實類短片、紀(jì)錄片風(fēng)格內(nèi)容。即夢也較早推出首尾幀控制功能。

生數(shù)Vidu在動漫風(fēng)格化、多主體參考功能上表現(xiàn)突出(如生成多角色互動鏡頭)。正如它在《毒液:最后一舞》的水墨宣傳片體現(xiàn)的,生成的鏡頭運(yùn)鏡更具創(chuàng)意,適合抽象或藝術(shù)化表達(dá)。因此它受到二次元動畫、藝術(shù)實驗短片作者的歡迎。

Runway、Luma等國外工具則常被用于歐美風(fēng)格的創(chuàng)作。

所以,專業(yè)視頻團(tuán)隊的工作流很難完全脫離對定價很貴的“兩巨頭”的慣性使用,正如在作圖領(lǐng)域有豆包的替代,但MidJourney或Recraft的特定風(fēng)格依然有一定依賴性一樣。

現(xiàn)在開源視頻模型的發(fā)展還不到DeepSeek那個程度,但視頻生成領(lǐng)域的一場價格戰(zhàn),可能已經(jīng)箭在弦上。

同屬閉源模型的生數(shù)科技Vidu,在推出2.0版以后也上線全新的收費(fèi)套餐,直接將每秒單價成本降至最低4分錢。以各家720P每秒單價計算,Vidu 2.0為 0.258元/秒,是行業(yè)平均價格的不到一半;而且官網(wǎng)“錯峰模式”在半夜抽卡,甚至是全免費(fèi)。

去年底,生數(shù)科技投融資負(fù)責(zé)人樊家睿對娛樂資本論表示,今年Vidu預(yù)計在生成速度、多元一致性和多模態(tài)真正融合方面會有重大突破?!吧伤俣确矫?,Vidu將進(jìn)一步“逼近極限”。把速度提上來,意味著把性價比提上來,AI視頻生成會更普及、更高效。”

全網(wǎng)都在考慮“你們大模型全開源了,那到底咋掙錢啊”的問題。不過就算沒有開源震撼彈,閉源廠商一樣會卷價格,因為視頻大模型背后沒有秘密。

正如Manus聯(lián)合創(chuàng)始人張濤此前所言,光鮮亮麗的Sora背后也是“大算力出奇跡”的常規(guī)路線,是算力、算法、數(shù)據(jù)堆疊而成的結(jié)果。各家閉源廠商用常規(guī)的步伐,已經(jīng)可以快速走量,壓低價格。

年初震撼業(yè)界的Sora最后是“起個大早,趕個晚集”。在國內(nèi)視頻生成模型的軍備競賽中,效果迅速到達(dá)世界領(lǐng)先水平,得到了全球客戶的認(rèn)可。去年圣誕節(jié)可口可樂的廣告使用了可靈作為主力工具。

根據(jù)AI產(chǎn)品榜統(tǒng)計的2月份應(yīng)用(不含網(wǎng)站端,下同)數(shù)據(jù),可靈海外版在全球認(rèn)知更高,占到出??偘竦牡?2位,海外版的月活環(huán)比增幅也達(dá)到90.55%。相比之下,曾經(jīng)的當(dāng)紅炸子雞Luma月活下降了31%,是2月份統(tǒng)計中降速最大的應(yīng)用。

現(xiàn)在的問題顯然是,這個賽道里的參與者還不夠多。

API和本地部署問題

影響定價的另一個變量是,如果云計算平臺放開了部署一些視頻大模型的API,或者用戶在自己的電腦上裝稍微小一點(diǎn)的模型,使得普通視頻的制作成本降低,會不會牽動頭部模型降價?

DeepSeek官網(wǎng)和官方API在春節(jié)期間被突然涌入的流量沖擊到癱瘓,但所謂“一鯨落,萬物生”,云計算提供商早一天部署R1,用量早一天暴漲。

微軟、騰訊、百度均一反常態(tài),第一時間在云服務(wù)和C端產(chǎn)品兩方面接入DeepSeek。硅基流動的日均調(diào)用量突破千億token,較半年前增長十倍,從名不見經(jīng)傳的小型云一下變得路人皆知。

現(xiàn)在來看視頻生成模型方面。近期比較出名的開源模型,都已經(jīng)在HuggingFace和魔搭等地開放使用。如果廠商有自己的云,也會第一時間上線部署。

作為不自帶云的小廠,階躍的模型和Vidu等類似,都是優(yōu)先服務(wù)于自家官網(wǎng)平臺,目前首要任務(wù)還是獲得更多人的接觸和使用。

不過,所有這些服務(wù)都沒有出現(xiàn)那種“國運(yùn)級別”的用量暴漲。

當(dāng)然,中小型云服務(wù)商很樂意接入盡可能全面的開源模型,以便將用戶鎖定在自己的服務(wù)內(nèi)。去年11月,硅基流動上線了由Lightricks開源的視頻生成模型LTX-Video,這是一個基于DiT架構(gòu)的2B參數(shù)模型,能夠在832*480分辨率下生成24 FPS的視頻。

但另一個現(xiàn)實問題是,對視頻生成模型API的調(diào)用,目前還缺乏一個普遍的方案。Chatbox、Cherry Studio等網(wǎng)頁UI或客戶端,都只覆蓋了文字對話或者文生圖界面,對視頻生成的界面、參數(shù)等尚未統(tǒng)一。

而且,從文本、圖片到視頻,其token的消耗和浪費(fèi)程度是倍數(shù)上升,相對的用戶用量也逐級下降。

視頻還有一個額外問題,只要預(yù)覽每次“抽卡”成果,都可能帶來很大的服務(wù)器負(fù)擔(dān)。娛樂資本論之前探討為什么國內(nèi)視頻網(wǎng)站的畫面都是“糊的”,曾經(jīng)提到了平臺出于服務(wù)器成本壓力,不得不降低碼率,用銳化等方法蒙混過關(guān)的苦衷。

云服務(wù)商自己也需要做一些性能調(diào)優(yōu),例如硅基流動的OneDiff加速庫,據(jù)說可以使Stable Diffusion出圖效率提升3倍。不過如何將類似經(jīng)驗遷移到視頻上,真正做到給普通用戶省錢,形成對商用模型的競爭態(tài)勢,現(xiàn)在還沒個譜。

至于本地部署——在自己的電腦放一個模型,當(dāng)然是免費(fèi)不限量的,但之前的問題是要么笨,要么慢。

DeepSeek-V3和R1有大量社區(qū)用戶結(jié)合llama、qwen進(jìn)行蒸餾,使其有機(jī)會運(yùn)行在PC、Mac甚至手機(jī)上面。這是兩年多以來,用戶終于可以斷網(wǎng)運(yùn)行一個基本可用的模型,本地大模型不再是“樣子貨”。

但是在圖片和視頻生成方面,還沒有迎來這樣的時刻,目前本地小模型依然處于用起來很困難的狀態(tài)。用戶可以在本地部署Stable Diffusion已經(jīng)有很長時間了,但Midjourney一直也沒有因此而降價。

通義萬相2.1小型的1.3B版本可在消費(fèi)級顯卡(如RTX4090)運(yùn)行,生成480P視頻僅需4分鐘——但沒有人向你保證本機(jī)生成480P視頻可以解決畫質(zhì)、一致性、細(xì)節(jié)和幻覺問題。

總之,視頻和圖片一樣,如果一次生成不可局部修改,必須“抽卡”的局面不改變,那么現(xiàn)有模型僅憑畫風(fēng)及連續(xù)性上的細(xì)微區(qū)別,就會一直維持各自的江湖地位。

AI視頻創(chuàng)作徹底下沉

根據(jù)AI產(chǎn)品榜2月份應(yīng)用數(shù)據(jù),國內(nèi)總榜中即夢排行第9,月活環(huán)比增加106%;Minimax的海螺第19(不過這是分拆改名之前的數(shù)據(jù)),環(huán)比月活也增加10%,同時海螺以日均使用時長6.63分鐘排在國內(nèi)時長榜的第2位;可靈獨(dú)立客戶端第23,月活環(huán)比增加113%。

這意味著過去一個月,一些頭部視頻生成大模型的C端使用都有了大幅度增長。App的增速上升,無疑也意味著視頻制作的下沉,因為專業(yè)創(chuàng)作者更喜歡用Web端來生成。

隨著豆包和元寶這兩個通用AI客戶端都加入了視頻創(chuàng)作功能,更多下沉用戶認(rèn)知到AI視頻,并且在日常生活中嘗試,只是時間問題。

在娛樂資本論 ·視智未來的《對話AI創(chuàng)業(yè)者》節(jié)目中,閃剪智能的創(chuàng)始人嚴(yán)華培提到,由于算法優(yōu)化和技術(shù)更新,數(shù)字人的制作定價從最初的一個8000元,降至去年8月時的300多元。通過訂閱制,會員可以付費(fèi)后多次修改數(shù)字人形象。

但如果是以大模型路線,而不是傳統(tǒng)數(shù)字人路線來做,那么數(shù)字人可能就會低至幾塊錢甚至免費(fèi)了,它可能會從大廠和媒體,降到網(wǎng)店老板之后,進(jìn)一步下沉到菜市場的攤主。

回想DeepSeek發(fā)布之后,似乎有很多人的“任督二脈”突然被打通。它觸達(dá)了以前可能從未接觸過、也從未想象過的圈層。

父母輩使用DeepSeek詢問子女的婚姻解法,年輕人則為自己算命、購買開運(yùn)寶石,或是通過聯(lián)網(wǎng)搜索充當(dāng)購物導(dǎo)購。也有越來越多AI網(wǎng)文充斥各大平臺,使人類作者和編輯感到痛苦。

在抖音快手等將拍短視頻的自由下放給所有人之后,視頻大模型的快速普及將是“技術(shù)民主化”的又一次飛躍。

事實證明,一項技術(shù)不是要等到發(fā)展成熟了才向下推廣。當(dāng)前的視頻生成還存在清晰度、幻覺等嚴(yán)重的問題,但這可能并不是海量普通人在使用時會考慮的問題。

近期一些典型的“AI造謠”案件,不論是地震中小孩子的假圖片,還是娛樂資本論曾經(jīng)揭露的“江西幫”炮制所謂“西安爆炸”假新聞,無一例外,并沒有嘗試做得特別逼真,只是用了最簡單的,甚至是兩三年前的過期AI技術(shù)。

當(dāng)"抽卡自由"徹底釋放人類的表達(dá)欲,視頻內(nèi)容將會匯入文本和圖片的洪流,它們早已跟AI難解難分。我們和我們的后代所處的世界,將被生成式內(nèi)容共同塑造和改變。

 
本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。