要聞

即夢(mèng)半斤可靈八兩？字節(jié)、快手視頻AI正面交鋒：理解、捕捉和想象都有差異

每日經(jīng)濟(jì)新聞 2024-11-10 17:28:18

◎伴隨字節(jié)自研視頻生成模型Seaweed開放使用，國(guó)內(nèi)視頻生成模型大比拼里最具看點(diǎn)的一對(duì)——即夢(mèng)、可靈終于正式交手。

每經(jīng)記者王郁彪楊昕怡每經(jīng)編輯張海妮

字節(jié)、快手，兩位短視頻巨頭在AI領(lǐng)域里迎來了正面交鋒。

11月8日，字節(jié)跳動(dòng)旗下的AI內(nèi)容平臺(tái)即夢(mèng)AI宣布，由字節(jié)跳動(dòng)自研的視頻生成模型Seaweed面向平臺(tái)用戶正式開放。

據(jù)字節(jié)方面介紹，本次開放使用的豆包視頻生成模型Seaweed是該款模型的標(biāo)準(zhǔn)版，僅需60秒即能生成時(shí)長(zhǎng)5秒的高質(zhì)量AI視頻，領(lǐng)先國(guó)內(nèi)業(yè)界3至5分鐘的所需生成時(shí)間。

《每日經(jīng)濟(jì)新聞》記者在對(duì)即夢(mèng)、可靈的初代版本和最新版本進(jìn)行實(shí)測(cè)時(shí)也發(fā)現(xiàn)，迭代后，兩款產(chǎn)品在視頻生成效果上均有多方面、不同程度的提升，可靈在空間布局和畫面細(xì)節(jié)呈現(xiàn)上更為準(zhǔn)確，且對(duì)生成內(nèi)容效果的調(diào)節(jié)更具靈活性、便捷性；而即夢(mèng)在生成時(shí)長(zhǎng)和視頻風(fēng)格上有優(yōu)勢(shì)。

一位大模型技術(shù)人員向《每日經(jīng)濟(jì)新聞》記者表示，視頻生成模型要實(shí)現(xiàn)生產(chǎn)內(nèi)容的不同“畫風(fēng)”是很難做的，“技術(shù)之外，還主要看數(shù)據(jù)源的豐富程度”。

當(dāng)短視頻進(jìn)入AI時(shí)代，字節(jié)和快手兩員猛將下場(chǎng)，誰將拔得頭籌？

初代VS迭代：半年時(shí)間，即夢(mèng)、可靈更新了什么？

伴隨字節(jié)自研視頻生成模型Seaweed開放使用，國(guó)內(nèi)視頻生成模型大比拼里最具看點(diǎn)的一對(duì)——即夢(mèng)、可靈終于正式交手。

它們都承載著理解物理世界，在衍生“真實(shí)”的同時(shí)盡可能放大想象的“AI造夢(mèng)計(jì)劃”，但對(duì)于自身而言，即夢(mèng)和可靈也都肩負(fù)字節(jié)和快手又一番商業(yè)化前景開拓的重任。

事實(shí)上，即夢(mèng)與可靈都在短短不到一年的時(shí)間，完成了數(shù)次迭代。即夢(mèng)3月底開啟視頻生成功能內(nèi)測(cè)，半年后，字節(jié)發(fā)布了豆包模型家族的兩款視頻生成模型Seaweed和Pixeldance，并通過即夢(mèng)AI、火山引擎小范圍邀測(cè)，至如今Seaweed面向平臺(tái)用戶正式開放。

工信部信息通信經(jīng)濟(jì)專家委員會(huì)委員盤和林向《每日經(jīng)濟(jì)新聞》記者表示，即夢(mèng)使用的新模型生成速度有所提升，給用戶的生成體驗(yàn)更好了，“即夢(mèng)AI目前在國(guó)內(nèi)生成領(lǐng)域，還是比較領(lǐng)先的”。

可靈在6月“出生”后一鳴驚人，發(fā)布至今經(jīng)歷了十余次更新，包括發(fā)布圖生視頻功能以及1.5模型的上線等重要更新。截至目前，可靈擁有超過360萬用戶，累計(jì)生成3700萬個(gè)視頻，并在近期正式上架獨(dú)立App（應(yīng)用軟件）。

《每日經(jīng)濟(jì)新聞》記者選取了OpenAI官方公布的5條Sora視頻提示詞（東京街頭的女士、太空人、無人機(jī)視角的海岸、3D動(dòng)畫的小怪物、云端讀書的年輕人）分別測(cè)試即夢(mèng)和可靈的初代版本和最新版本，縱向?qū)Ρ葍蓚€(gè)視頻生成模型的視頻效果。

對(duì)比即夢(mèng)最初版本和最新版本生產(chǎn)的視頻效果后，我們發(fā)現(xiàn)，即夢(mèng)有兩部分更新較為明顯：一個(gè)是在動(dòng)態(tài)的“人事物”表現(xiàn)上，動(dòng)作的捕捉和連貫性均有較為明顯的提升；另一個(gè)是畫面風(fēng)格的差異化呈現(xiàn)也有比較大的進(jìn)步。

以“東京街頭的女士”為例，初代即夢(mèng)塑造的人物動(dòng)作僵硬，特別是在腿部、腳部動(dòng)作的捕捉上，整體呈現(xiàn)的效果是模糊和扭曲的。迭代后的新版即夢(mèng)，人物動(dòng)作自然流暢，腳部動(dòng)態(tài)的細(xì)節(jié)處理更清晰、更符合真實(shí)世界的邏輯。

從畫面風(fēng)格的差異化上看，版本更新后的即夢(mèng)畫風(fēng)區(qū)分度更高，無論對(duì)真實(shí)世界畫面，還是超現(xiàn)實(shí)畫面的描述上，都做出了不同風(fēng)格呈現(xiàn)。

這一點(diǎn)在“云端讀書的年輕人”視頻生成的效果上對(duì)比明顯。初代即夢(mèng)將這一超現(xiàn)實(shí)畫面做了完全動(dòng)畫風(fēng)格的處理，而新版即夢(mèng)對(duì)人物的呈現(xiàn)更傾向?qū)憣?shí)風(fēng)。

初代版本即夢(mèng)“云端讀書的年輕人”視頻截圖

新版即夢(mèng)“云端讀書的年輕人”視頻截圖

可靈“云端讀書的年輕人”視頻截圖

“太空人”的視頻生成效果也是如此，初代即夢(mèng)生成的太空人“游戲建模”感較重，而新版完全寫實(shí)。

初代可靈和數(shù)次迭代后1.5模型的可靈，視頻生成效果提升更加明顯。變化之一就是空間布局和畫面細(xì)節(jié)的呈現(xiàn)更精致。在“無人機(jī)視角的海岸”生成效果上，能夠看到在空間布局上，畫面更具縱深感，空間布局更加復(fù)雜，房屋、馬路等細(xì)節(jié)設(shè)置也更豐富。

即夢(mèng)PK可靈：理解、捕捉和想象都有差異

兩個(gè)模型在迭代后，生成效果都更加穩(wěn)定，畫質(zhì)也更優(yōu)，流暢度和細(xì)節(jié)處理都更經(jīng)得起推敲。不過，它們?cè)谡Z義理解、關(guān)鍵詞捕捉和放大，以及創(chuàng)意想象力和創(chuàng)意相關(guān)性的平衡上還是有明顯區(qū)別。

我們橫向?qū)Ρ?，將最新版本的即?mèng)與1.5模型可靈，對(duì)5條Sora視頻提示詞（東京街頭的女士、太空人、無人機(jī)視角的海岸、3D動(dòng)畫的小怪物、云端讀書的年輕人）的呈現(xiàn)進(jìn)行比拼。

語義的理解和關(guān)鍵詞的捕捉，讓即夢(mèng)和可靈的視頻呈現(xiàn)有所不同。

在“無人機(jī)視角的海岸”視頻中，即夢(mèng)對(duì)提示詞中“帶有燈塔的小島”進(jìn)行了相對(duì)模糊化的處理，而無論是可靈還是Sora，這一畫面的重點(diǎn)都是“小島”。而在對(duì)“海岸公路”的描述中，即夢(mèng)的設(shè)置并不符合真實(shí)世界的邏輯。

即夢(mèng)“無人機(jī)視角下的小島”視頻截圖

可靈“無人機(jī)視角下的小島”視頻截圖

而在“太空人”的視頻效果上，即夢(mèng)對(duì)描述中的“冒險(xiǎn)”并未進(jìn)行描述，再次生成后，手拿咖啡騎著摩托的太空人也忽視了“冒險(xiǎn)”的設(shè)定?？伸`則通過人物的表情以及運(yùn)鏡強(qiáng)調(diào)里“冒險(xiǎn)”。不過，即夢(mèng)和可靈都相對(duì)忽視了“電影預(yù)告片”這一設(shè)定，對(duì)比之下Sora的“太空人”視頻更有電影感。

即夢(mèng)“太空人”視頻截圖

可靈“太空人”視頻截圖

在“3D動(dòng)畫的小怪物”視頻生成中，即夢(mèng)的小怪物設(shè)定與動(dòng)畫電影《怪物公司》里的角色“薩利”幾乎相同。而提示詞中有關(guān)小怪物的部分描述，即夢(mèng)的呈現(xiàn)也相對(duì)不甚準(zhǔn)確，比如“短毛”設(shè)定的執(zhí)行。此外，在藝術(shù)風(fēng)格的呈現(xiàn)上，提示詞著重強(qiáng)調(diào)了“光照和紋理”，即夢(mèng)的執(zhí)行弱于可靈。

即夢(mèng)“小怪物”視頻截圖

可靈“小怪物”視頻截圖

而在“東京街頭的女士”視頻中，即夢(mèng)在多主體復(fù)雜交互的呈現(xiàn)上，效果相對(duì)于可靈，表現(xiàn)不佳。無論是對(duì)畫面主體的“女士”還是空間描述上都相對(duì)準(zhǔn)確，但畫面中的行人普遍進(jìn)行了模糊處理，近景中的行人則出現(xiàn)扭曲變形。

即夢(mèng)“東京街頭的女士”視頻截圖

可靈“東京街頭的女士”視頻截圖

不過，即夢(mèng)AI官方透露，近期，Seaweed和Pixeldance兩款視頻生成模型的Pro版也將開放使用。Pro版模型會(huì)對(duì)多主體交互以及多拍動(dòng)作連貫性上進(jìn)行優(yōu)化，同時(shí)攻克多鏡頭切換的一致性等難題。

在功能與體驗(yàn)上，經(jīng)過數(shù)輪迭代后的可靈，在生成視頻時(shí)，有“創(chuàng)意想象力和創(chuàng)意相關(guān)性”參數(shù)的調(diào)整，因此可以進(jìn)行平衡調(diào)整。對(duì)于不希望呈現(xiàn)的內(nèi)容，可靈也可以設(shè)置，比如模糊、拼貼、變形、動(dòng)畫等。生成操作更靈活，效果可調(diào)整。

即夢(mèng)生成視頻的操作更加便捷。此外，經(jīng)測(cè)試，即夢(mèng)視頻生成時(shí)間更短，Sora的5條提示詞的視頻生成時(shí)間，每條都不超過半分鐘。而1.5模型的可靈生成10秒高質(zhì)量視頻則需要耗時(shí)10分鐘以上。

不過，需要注意的是，上述即夢(mèng)、可靈生成的視頻，均由記者測(cè)試生成，不同版本、描述的細(xì)節(jié)，都會(huì)造成視頻生成效果的差異。并且，目前Sora仍未開放，所生成視頻均為官方發(fā)布版本，后續(xù)開放，用戶實(shí)際測(cè)試效果與官方視頻可能存在一定的差異。

AI視頻生成領(lǐng)域混戰(zhàn)，何為勝負(fù)手？

對(duì)于字節(jié)、快手這兩大短視頻巨頭而言，要在AI視頻生成領(lǐng)域中進(jìn)行較量，對(duì)手還遠(yuǎn)不只彼此。

例如，11月8日，“AI六小龍”之一的智譜對(duì)其視頻生成工具清影進(jìn)行了新升級(jí)。值得關(guān)注的是，升級(jí)后的清影支持任意比例的圖像生成視頻，并且具備多通道生成能力，同一指令或圖片可以一次性生成4個(gè)視頻。此外，新清影可以生成與畫面匹配的音效，該音效功能將在本月上線公測(cè)。

其中已有初露鋒芒的玩家出現(xiàn)。

8月31日，MiniMax發(fā)布了其首款A(yù)I高清視頻生成模型技術(shù)abab-video-1，上線首月便捷報(bào)頻傳。MiniMax官方公眾號(hào)披露，在視頻模型上線海螺AI的首月，海螺AI網(wǎng)頁版訪問量增速超800%，用戶覆蓋全球超180個(gè)國(guó)家和地區(qū)，產(chǎn)品連奪AI產(chǎn)品榜（web）9月全球增速榜和國(guó)內(nèi)增速榜兩榜榜首。

北京市社會(huì)科學(xué)院管理研究所副研究員王鵬向《每日經(jīng)濟(jì)新聞》記者指出，目前國(guó)內(nèi)外AI視頻產(chǎn)品都處于快速發(fā)展階段，國(guó)外Meta、Google等科技巨頭都在積極布局AI視頻領(lǐng)域；國(guó)內(nèi)方面，快手可靈、即夢(mèng)AI等產(chǎn)品也在不斷迭代升級(jí)，提升用戶體驗(yàn)和商業(yè)化能力。

同時(shí)，東吳證券在今年8月發(fā)布的研報(bào)也指出了國(guó)產(chǎn)AI視頻大模型的迭代、落地發(fā)展之快、競(jìng)爭(zhēng)之激烈——技術(shù)層面，新模型生成時(shí)長(zhǎng)、分辨率、幀率上快速提升，縮小了與Sora之間的差距；產(chǎn)品方面，許多新產(chǎn)品和模型升級(jí)面向全體用戶開放，部分已應(yīng)用于微短劇創(chuàng)作，國(guó)內(nèi)公司在用戶開放和商業(yè)化落地方面進(jìn)展迅速。

在商業(yè)化可能性方面，該份研報(bào)中提到，在AI滲透率為15%的中性假設(shè)下，中國(guó)AI視頻生成的行業(yè)潛在空間為3178億元；在全AI模式下，電影、長(zhǎng)劇、動(dòng)畫片和短劇的制作成本，相較傳統(tǒng)模式將下降超95%。

龐大的潛在市場(chǎng)規(guī)模和降本增效的“超能力”也能從可靈的使用數(shù)據(jù)上窺見一二。

在10月舉行的“2024中國(guó)計(jì)算機(jī)大會(huì)”上，快手副總裁、大模型團(tuán)隊(duì)負(fù)責(zé)人張迪透露，自今年6月發(fā)布以來，快手可靈AI已有超過360萬用戶，累計(jì)生成3700萬個(gè)視頻以及超過1億張圖片。

盤和林在接受《每日經(jīng)濟(jì)新聞》記者采訪時(shí)表示，可靈背靠快手，擁有流量支持，所以商業(yè)化進(jìn)程很快，“AI視頻產(chǎn)品還是要背靠互聯(lián)網(wǎng)平臺(tái)，有流量才有商業(yè)潛力”。

相似的是，字節(jié)也將視頻模型的商業(yè)化放在了任務(wù)單前列。在今年9月推出兩款視頻生成模型時(shí)，火山引擎總裁譚待曾公開表示，新款豆包視頻生成模型“從一落地就開始考慮商業(yè)化”，使用領(lǐng)域包括電商營(yíng)銷、動(dòng)畫教育、城市文旅和微劇本。

“AI視頻將在B端和C端展現(xiàn)出不同的商業(yè)化潛力。”王鵬認(rèn)為，面向B端，AI視頻可以為企業(yè)提供更加高效、低成本的視頻制作和分發(fā)解決方案；在C端，AI視頻可以滿足用戶對(duì)個(gè)性化、高質(zhì)量視頻內(nèi)容的需求，還能與電商、廣告等行業(yè)相結(jié)合，實(shí)現(xiàn)更加精準(zhǔn)的營(yíng)銷和變現(xiàn)。

不過對(duì)于商業(yè)化，也有如MiniMax創(chuàng)始人閆俊杰這般的想法：“在目前階段，最重要的東西還不是商業(yè)化，是技術(shù)能達(dá)到廣泛‘可用’的程度。”但毫無疑問的是，在兩位短視頻巨頭下場(chǎng)、初創(chuàng)獨(dú)角獸“另辟蹊徑”，以及不一樣的商業(yè)化節(jié)奏等因素的共同作用下，這場(chǎng)在AI視頻生成領(lǐng)域的賽跑已越發(fā)有看點(diǎn)了。

如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

視頻 Ai 快手字節(jié)

上一篇文章

國(guó)資委：推動(dòng)央企探索與各類企業(yè)深化合作有效模式，高質(zhì)量組織聯(lián)合出海

返回每經(jīng)網(wǎng)首頁

下一篇文章

國(guó)海證券給予光威復(fù)材買入評(píng)級(jí)，公司動(dòng)態(tài)研究：三季度扣非歸母凈利潤(rùn)同比大增，碳梁業(yè)務(wù)實(shí)現(xiàn)恢復(fù)性增長(zhǎng)

相關(guān)文章