每日經(jīng)濟(jì)新聞

今日?qǐng)?bào)紙

每經(jīng)網(wǎng)首頁(yè) > 今日?qǐng)?bào)紙 > 正文

快手可靈對(duì)標(biāo)Sora 五大場(chǎng)景全面評(píng)測(cè)

每日經(jīng)濟(jì)新聞 2024-06-25 22:54:34

每經(jīng)記者王郁彪溫夢(mèng)華每經(jīng)編輯董興生

大洋彼岸，Sora的到來(lái)，似乎讓AI有了睜眼看世界的可能。在官方表述中，Sora被稱為“世界模擬器”：它理解真實(shí)的規(guī)則，并在此基礎(chǔ)上生成“世界”。

如果說(shuō)從前還是一道銅墻鐵壁，那么現(xiàn)在，虛擬與真實(shí)可能僅一線之隔。Sora之后，它的挑戰(zhàn)者前赴后繼。6月，視頻生成大模型迎來(lái)又一輪新品爆發(fā)，生成式AI賽道像是“過(guò)年了”。快手可靈、Luma AI以及Runway迭代更新后的Gen-3 Alpha等現(xiàn)象級(jí)爆品不斷涌現(xiàn)。其中，討論度最高的是快手自研視頻生成大模型“可靈”，全面對(duì)標(biāo)Sora。

《每日經(jīng)濟(jì)新聞》記者將OpenAI官方公布的5條Sora視頻提示詞投喂給可靈，對(duì)其文生視頻的能力進(jìn)行測(cè)試，同時(shí)從動(dòng)態(tài)、視效、細(xì)節(jié)、場(chǎng)景等多維度表現(xiàn)進(jìn)行結(jié)果比對(duì)和關(guān)聯(lián)。測(cè)試和觀察后發(fā)現(xiàn)，雖然在部分維度Sora仍然領(lǐng)先，且可靈由于尚處開(kāi)放初期，上線功能相對(duì)單一，生成存在一定限制，但幾乎可以判斷，國(guó)產(chǎn)視頻生成大模型已經(jīng)上升到了一個(gè)新的高度。

國(guó)金證券互聯(lián)網(wǎng)傳媒首席分析師陳澤敏在接受記者采訪時(shí)表示，AI對(duì)不同世界觀的快速理解以及在視頻上的反應(yīng)，令人感到不可思議。

如果說(shuō)從前還是一道銅墻鐵壁，那么現(xiàn)在，虛擬與真實(shí)可能僅一線之隔。Sora之后，它的挑戰(zhàn)者前赴后繼。圖為人形機(jī)器人拿著畫(huà)筆站在畫(huà)架前進(jìn)行創(chuàng)作，畫(huà)像由人工智能生成。視覺(jué)中國(guó)圖

在復(fù)雜場(chǎng)景敘述處理上呈現(xiàn)一定局限性

Sora之后，國(guó)內(nèi)視頻生成大模型不斷推陳出新。

3 月底，字節(jié)跳動(dòng)旗下Dreamina（即夢(mèng)）內(nèi)測(cè)視頻生成功能；4月底，生數(shù)科技首個(gè)文生視頻模型Vidu發(fā)布；5月，騰訊也開(kāi)源了DiT架構(gòu)的混元文生圖模型。

今年以來(lái)，快手先后發(fā)布1750億參數(shù)規(guī)模的通用大語(yǔ)言模型“快意”和文生圖大模型產(chǎn)品“可圖”。視頻生成大模型可靈則在6月推出，快手方面稱，可靈能夠生成大幅度的合理運(yùn)動(dòng)，模擬物理世界特性，生成的視頻分辨率達(dá)1080p，時(shí)長(zhǎng)最長(zhǎng)可達(dá)2分鐘。圖生視頻功能后續(xù)開(kāi)放。

《每日經(jīng)濟(jì)新聞》記者選取了OpenAI官方公布的5條Sora視頻提示詞（東京街頭的女士、太空人、無(wú)人機(jī)視角的海岸、3D動(dòng)畫(huà)的小怪物、云端讀書(shū)的年輕人）測(cè)試可靈。同時(shí)比對(duì)生成視頻進(jìn)行效果測(cè)試，從“畫(huà)面呈現(xiàn)”“功能與體驗(yàn)”兩大維度下的多個(gè)具體表現(xiàn)進(jìn)行總結(jié)。

在畫(huà)面呈現(xiàn)上：

1、動(dòng)態(tài)效果?？伸`的“鏡頭”普遍為前后向邏輯推進(jìn)，Sora則更豐富。在“海浪撞擊懸崖的無(wú)人機(jī)視圖”一項(xiàng)，Sora畫(huà)面的聚焦點(diǎn)在提示詞中“有燈塔的小島”，對(duì)整個(gè)環(huán)境進(jìn)行環(huán)視，重點(diǎn)突出?？伸`的鏡頭前后推進(jìn)，小島被設(shè)置在畫(huà)面的最遠(yuǎn)端，沒(méi)有重點(diǎn)突出小島。不過(guò)，Sora和可靈對(duì)海浪的運(yùn)動(dòng)軌跡描述都很準(zhǔn)確。

2、視覺(jué)效果。這一項(xiàng)上，Sora和可靈表現(xiàn)都較為優(yōu)秀。特別是在“東京街頭的女士”視頻畫(huà)面呈現(xiàn)上，無(wú)論是對(duì)霓虹燈色彩的展示，還是潮濕地面反光的呈現(xiàn)，兩個(gè)模型的畫(huà)面光影表達(dá)都很準(zhǔn)確。

3、細(xì)節(jié)表現(xiàn)。記者重點(diǎn)關(guān)注到二者對(duì)人的五官的呈現(xiàn)。Sora的刻畫(huà)更細(xì)致，特別是人在動(dòng)態(tài)場(chǎng)景下，五官?zèng)]有變形，幾乎是相對(duì)靜態(tài)的?？伸`在動(dòng)態(tài)場(chǎng)景下，人的五官有所變形，會(huì)隨著畫(huà)面鏡頭的推進(jìn)以及人的動(dòng)作而扭曲。

但在“3D動(dòng)畫(huà)的小怪物”生成上，可靈的細(xì)節(jié)表現(xiàn)與Sora差別不大，特別是對(duì)小怪物蓬松毛發(fā)特性的捕捉和呈現(xiàn)上，很精準(zhǔn)也很細(xì)致。

4、連貫性和流暢度。Sora和可靈的畫(huà)面表現(xiàn)均連貫、流暢，但稍有不同的是，對(duì)復(fù)雜場(chǎng)景的描述，Sora明顯更優(yōu)。特別是在“太空人”的畫(huà)面生成上，可靈的畫(huà)面只給出了太空人的正面特寫(xiě)，但Sora呈現(xiàn)了遠(yuǎn)近景的切換，添加了更多輔助元素，如飛船等。

在功能和體驗(yàn)上，Sora與可靈視頻生成的風(fēng)格都更偏向模擬真實(shí)世界的場(chǎng)景。無(wú)論是科幻場(chǎng)景、自然風(fēng)光、超自然畫(huà)面、3D動(dòng)畫(huà)等都更加側(cè)重寫(xiě)實(shí)風(fēng)格。

在不同場(chǎng)景的適配上，Sora的能力似乎更勝一籌。在對(duì)“云端上讀書(shū)的年輕人”的畫(huà)面生成上，可靈的貼圖感更重，素材間的融合度不高。在語(yǔ)義的理解上，Sora和可靈都較為準(zhǔn)確，特別是對(duì)提示詞中不同主體的捕捉，都比較完整。

不過(guò)，需要注意的是，可靈目前生成的視頻長(zhǎng)度均為5秒，與Sora的10至20秒相比，前者在復(fù)雜場(chǎng)景的敘述處理上會(huì)呈現(xiàn)一定的局限性。上線初期的可靈，功能較單一，風(fēng)格切換等有局限性。

此外，《每日經(jīng)濟(jì)新聞》記者在體驗(yàn)時(shí)發(fā)現(xiàn)，在一些視頻生成時(shí)，“可靈”也會(huì)“失靈”。例如，彈吉他的熊貓擁有人類(lèi)的手指；提示詞中“淺綠色的布藝沙發(fā)”，到了視頻中呈現(xiàn)的則是紅棕色的皮質(zhì)沙發(fā)。同時(shí)，在一些視頻中，當(dāng)有多個(gè)主體時(shí)，有時(shí)也會(huì)出現(xiàn)一些元素?zé)o法完全呈現(xiàn)在視頻中的情況。

在生成“10歲小女孩在羽毛球場(chǎng)比賽”時(shí)，小女孩手里的羽毛球拍變成了網(wǎng)球拍，且只有乒乓球拍大小，羽毛球也變成了網(wǎng)球。可見(jiàn)，實(shí)際生成視頻時(shí)，可靈有時(shí)存在一些較大的偏差。

值得注意的是，上述可靈視頻由記者測(cè)試生成，不同版本視頻可能存在差異。而目前Sora仍未開(kāi)放，所生成視頻均為官方發(fā)布的版本，待Sora開(kāi)放測(cè)試后，用戶實(shí)際測(cè)試效果或許與官方發(fā)布視頻也有差異。

可靈整體框架采用了類(lèi)似Sora的DiT結(jié)構(gòu)

“肯定是超出預(yù)期的，而且最先推出來(lái)比肩Sora的是快手團(tuán)隊(duì)，還挺意外。”多位在互聯(lián)網(wǎng)行業(yè)深耕多年的資深行業(yè)人士、資深產(chǎn)業(yè)分析師在接受《每日經(jīng)濟(jì)新聞》記者采訪時(shí)坦言。

隨著快手“可靈”正式開(kāi)放內(nèi)測(cè)，社交平臺(tái)上，已有不少博主、創(chuàng)作者分享使用“可靈”的體驗(yàn)，國(guó)外創(chuàng)作者們也是各種求內(nèi)測(cè)。雖然目前內(nèi)測(cè)只能生成5秒視頻，但已經(jīng)有不少體驗(yàn)者通過(guò)多個(gè)視頻組合成短片，不少網(wǎng)友笑稱“壓力給到了抖音剪映”。

早在2023年初，快手就啟動(dòng)了新AI戰(zhàn)略，在最近幾次財(cái)報(bào)電話會(huì)議上，快手聯(lián)合創(chuàng)始人兼首席執(zhí)行官程一笑也頻頻談及快手自研大模型的研究及應(yīng)用進(jìn)展。不過(guò)，在很多人看來(lái)，快手更側(cè)重于短視頻和社交內(nèi)容，而非專業(yè)的視頻剪輯工具。在此前的大模型競(jìng)爭(zhēng)中，快手也并不是引人關(guān)注的第一梯隊(duì)成員。

此前，快手推出的通用大語(yǔ)言模型“快意”以及文生圖大模型產(chǎn)品“可圖”，在市場(chǎng)的關(guān)注度和影響力均相對(duì)有限。如今，“可靈”的出現(xiàn)，讓國(guó)內(nèi)大模型賽道看到了對(duì)標(biāo)Sora“彎道超車(chē)”的可能。

《每日經(jīng)濟(jì)新聞》記者了解到，在架構(gòu)選擇方面，可靈整體框架采用了類(lèi)似Sora的DiT結(jié)構(gòu)，用Transformer代替了傳統(tǒng)擴(kuò)散模型中基于卷積網(wǎng)絡(luò)的U-Net。同時(shí)，在此基礎(chǔ)上，快手大模型團(tuán)隊(duì)還對(duì)模型中的隱空間編/解碼、時(shí)序建模等模塊進(jìn)行了升維。

在互聯(lián)網(wǎng)產(chǎn)業(yè)深耕多年的某頭部游戲公司高管李嚴(yán)（化名）認(rèn)為，或許抖音未來(lái)也會(huì)推出類(lèi)似的文生視頻模型，但目前“可靈”的推出，最大的意義在于，它證明Sora的技術(shù)架構(gòu)路線是可以被復(fù)現(xiàn)的，并且依托短視頻平臺(tái)的海量、優(yōu)質(zhì)過(guò)往數(shù)據(jù)，是可以后來(lái)居上的。同時(shí)，也說(shuō)明之前Sora出現(xiàn)時(shí)業(yè)內(nèi)對(duì)它“真實(shí)世界模擬器”的評(píng)價(jià)可能過(guò)高。

相關(guān)研報(bào)指出，目前，國(guó)內(nèi)大語(yǔ)言及多模態(tài)大模型正持續(xù)追趕海外主流大模型，模型能力逐步提升，帶動(dòng)下游應(yīng)用發(fā)展。過(guò)去幾個(gè)月，國(guó)內(nèi)頭部應(yīng)用總訪問(wèn)量與海外頭部應(yīng)用總訪問(wèn)量差距逐漸縮小，看好未來(lái)國(guó)內(nèi)應(yīng)用快速增長(zhǎng)的趨勢(shì)。

陳澤敏指出，雖然“可靈”搶跑為快手在文生視頻賽道開(kāi)了一個(gè)好頭，但這條道路要持續(xù)走下去，仍需要很大投入。

“未來(lái)如果可靈（生成的視頻）能夠延長(zhǎng)到15秒，并擁有連貫、不拖影、多元世界觀融合的高質(zhì)量視頻，那一定會(huì)對(duì)短視頻的生產(chǎn)方式帶來(lái)影響，越來(lái)越多的創(chuàng)作者或許將被取代，但好內(nèi)容的價(jià)值也會(huì)變得更高。”陳澤敏告訴《每日經(jīng)濟(jì)新聞》記者。

AI生成賽道將邁入邊際余量競(jìng)爭(zhēng)

今年春節(jié)期間，OpenAI的文生視頻大模型Sora橫空出世，轟動(dòng)整個(gè)科技圈，不少?gòu)臉I(yè)者將追趕Sora定為新的“小目標(biāo)”。

灼識(shí)咨詢相關(guān)報(bào)告數(shù)據(jù)顯示，全球AI市場(chǎng)規(guī)模預(yù)計(jì)于2027年達(dá)到5624億美元，中國(guó)AI市場(chǎng)規(guī)模（按收入計(jì)）已由2018年的560億元增至2022年的1942億元，預(yù)計(jì)于2027年達(dá)到6448億元。

巨大的市場(chǎng)潛力之下，在文生視頻大模型領(lǐng)域，Sora之外，Runway、Pika、Stable Video Diffusion等眾多創(chuàng)業(yè)公司競(jìng)相角逐。

不過(guò)，在陳澤敏看來(lái)，雖然越來(lái)越多的公司身處AI大風(fēng)口，但未來(lái)留下的公司將越來(lái)越少，行業(yè)將進(jìn)入邊際余量競(jìng)爭(zhēng)。

“例如像英偉達(dá)這類(lèi)確定性比較強(qiáng)的頭部公司會(huì)更受資本關(guān)注，而對(duì)于軟件服務(wù)這類(lèi)公司，目前資本仍持懷疑態(tài)度。在AI生成賽道，仍是‘頭部玩家勝者為王’的模式，頭部勝者的集中度更高，小公司（前景）不容樂(lè)觀。”陳澤敏表示。

雖然人人都想趕上AIGC（生成式人工智能）這趟“時(shí)代列車(chē)”，但今年以來(lái)，AIGC領(lǐng)域的投資風(fēng)向正在悄然發(fā)生變化。

灼識(shí)咨詢執(zhí)行董事姜驍瀟向《每日經(jīng)濟(jì)新聞》記者分析表示，資本從對(duì)通用大模型的廣泛關(guān)注轉(zhuǎn)向更加聚焦于具有明確市場(chǎng)需求和實(shí)際應(yīng)用場(chǎng)景的垂直模型。許多投資人現(xiàn)在更多的是觀察而非直接投入大模型項(xiàng)目，并將實(shí)際投資更多地投向了具有更強(qiáng)商業(yè)化能力的應(yīng)用層項(xiàng)目，資本更側(cè)重于項(xiàng)目的商業(yè)化潛力和能力。

商業(yè)化前景成為市場(chǎng)和資本關(guān)心的問(wèn)題。AI生成的內(nèi)容，究竟能不能獲得用戶真金白銀的支持，目前仍要畫(huà)一個(gè)大大的問(wèn)號(hào)。

姜驍瀟認(rèn)為，目前來(lái)看，大模型行業(yè)正處在應(yīng)用拓展階段。在這個(gè)階段，AIGC技術(shù)將被廣泛應(yīng)用于各個(gè)領(lǐng)域，但目前AIGC行業(yè)尚未完全實(shí)現(xiàn)成熟的商業(yè)化。

“可靈和類(lèi)似的文生視頻大模型未來(lái)商業(yè)化潛力相當(dāng)大。”姜驍瀟觀察到，在影視和廣告制作中，文生視頻大模型可以用于快速生成特效、場(chǎng)景設(shè)計(jì)和虛擬角色等，節(jié)省成本和時(shí)間，提高效率；在虛擬現(xiàn)實(shí)和游戲開(kāi)發(fā)領(lǐng)域，這些模型可以用于生成角色動(dòng)畫(huà)和互動(dòng)場(chǎng)景，為用戶提供更加身臨其境的體驗(yàn)等。

Sora釋放的“沖擊波”還在持續(xù)蔓延，官方發(fā)布的多個(gè)預(yù)覽視頻里，五彩斑斕的現(xiàn)實(shí)世界似乎已經(jīng)被搬上虛擬頻道。但Sora和它的挑戰(zhàn)者們，并不想虛構(gòu)世界，而是希望在理解真實(shí)世界的規(guī)則基礎(chǔ)上，生成一個(gè)全新的世界。

“硅谷精神之父”、《連線》雜志創(chuàng)始主編凱文·凱利在2019年寫(xiě)道：“鏡像世界尚未完全存在，但它正在到來(lái)。”而此前他曾預(yù)言，“萬(wàn)物都會(huì)有數(shù)字版本，這世間所有，都將在數(shù)字世界建立鏡像”，至于還要多久，凱文·凱利認(rèn)為，“是5000天后”。

封面圖片來(lái)源：視覺(jué)中國(guó)

如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

視頻 Sora 快手

上一篇文章

德創(chuàng)環(huán)保回復(fù)年報(bào)監(jiān)管函：鈉電池正負(fù)極材料暫無(wú)訂單

返回每經(jīng)網(wǎng)首頁(yè)

下一篇文章

江蘇南通、安徽鳳陽(yáng)等地發(fā)文鼓勵(lì)農(nóng)村居民放棄宅基地進(jìn)城買(mǎi)房

相關(guān)文章

熱文精選

點(diǎn)擊排行

歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

每經(jīng)經(jīng)濟(jì)新聞官方APP

關(guān)注我們
辟謠專區(qū)

加入我們
招聘專頁(yè)

Copyright ? 2025 每日經(jīng)濟(jì)新聞報(bào)社版權(quán)所有，未經(jīng)許可不得轉(zhuǎn)載使用，違者必究。

廣告熱線? 北京: 010-57613265，?上海: 021-61283008，?廣州: 020-84201861，?深圳: 0755-83520159，?成都: 028-86512112

網(wǎng)絡(luò)社會(huì)征信網(wǎng)

兒童色情信息舉報(bào)專區(qū)

成都市互聯(lián)網(wǎng)不良與違法信息舉報(bào)中心

四川省互聯(lián)網(wǎng)舉報(bào)中心

中國(guó)互聯(lián)網(wǎng)舉報(bào)中心

每日經(jīng)濟(jì)新聞互聯(lián)網(wǎng)不良與違法信息舉報(bào)中心

互聯(lián)網(wǎng)新聞信息服務(wù)許可證：51120190017 網(wǎng)站備案號(hào)：蜀ICP備19004508號(hào)-3 川公網(wǎng)安備 51019002002026號(hào)

新聞職業(yè)道德監(jiān)督熱線：400 889 0008 郵箱：zbb@nbd.com.cn

免费va国产高清不卡大片,笑看风云电视剧,亚洲黄色性爱在线观看,成人在线免费