每日經(jīng)濟(jì)新聞

要聞

每經(jīng)網(wǎng)首頁 > 要聞 > 正文

60秒一鏡到底，文生視頻的GPT-3時(shí)刻！Sora技術(shù)報(bào)告揭秘 6大核心優(yōu)勢(shì)，AGI或在1年內(nèi)實(shí)現(xiàn)？

每日經(jīng)濟(jì)新聞 2024-02-17 16:35:45

◎ OpenAI最新的視頻生成模型Sora憑借出色的視頻制作能力瞬間“點(diǎn)燃”科技圈。業(yè)內(nèi)人士稱，這是視頻生成領(lǐng)域的GPT-3時(shí)刻。

每經(jīng)記者蘭素英每經(jīng)編輯孫宇婷

“兩只金毛獵犬在山頂播客”

“火星上日落時(shí)的一場(chǎng)極具未來感的無人機(jī)比賽”

“在一個(gè)與自然和諧共生，同時(shí)又有超強(qiáng)朋克氣質(zhì)和高科技屬性的未來城市漫游……”

根據(jù)上述提示詞，OpenAI首席執(zhí)行官阿爾特曼在X平臺(tái)上發(fā)布了一系列視頻，精美的場(chǎng)景讓用戶驚嘆不已。而這些視頻全都是通過OpenAI 2月15日發(fā)布的最新視頻生成模型Sora制作的，用戶震驚之余，也給予了Sora高度評(píng)價(jià)，將其描述為“絕無僅有”和“游戲規(guī)則改變者”。

圖片來源：X平臺(tái)

Sora采用了OpenAI文生圖模型DALL-E 3背后的強(qiáng)大技術(shù)，可將簡(jiǎn)短的文本描述轉(zhuǎn)化成長(zhǎng)達(dá)1分鐘的高清視頻。業(yè)界大佬Gabor Cselle將Sora和Pika、RunwayML和Stable Video進(jìn)行對(duì)比后發(fā)現(xiàn)，在輸入相同的提示后，其他主流工具生成的視頻都大約只有5秒鐘，Sora可以在一段長(zhǎng)達(dá)17秒視頻場(chǎng)景中，保持動(dòng)作和畫面一致性。

英偉達(dá)人工智能研究院首席研究科學(xué)家Jim Fan也對(duì)Sora的能力發(fā)出感嘆，稱這是視頻生成領(lǐng)域的GPT-3時(shí)刻。他表示，Sora是一個(gè)“數(shù)據(jù)驅(qū)動(dòng)的物理引擎”，一個(gè)可學(xué)習(xí)的模擬器或“世界模型”。360集團(tuán)創(chuàng)始人、董事長(zhǎng)周鴻祎則稱，隨著Sora的到來，人類離AGI真的就不遠(yuǎn)了，不是10年、20年的問題，可能一兩年很快就可以實(shí)現(xiàn)。

在隨后發(fā)布的技術(shù)報(bào)告中，OpenAI介紹了Sora的強(qiáng)大性能以及背后的支撐技術(shù)，也對(duì)Sora的局限性進(jìn)行了客觀的分析。《每日經(jīng)濟(jì)新聞》記者通過梳理，總結(jié)出了Sora的六大核心優(yōu)勢(shì)。

從技術(shù)上看，Sora有望將數(shù)字內(nèi)容的創(chuàng)造力和真實(shí)感提升到新的水平，但凡事總有兩面性，影視、廣告制作和視頻等行業(yè)也將面臨嚴(yán)重的沖擊。另外，有專家對(duì)于技術(shù)的迅猛發(fā)展也表示出了擔(dān)憂，稱這類技術(shù)可能會(huì)導(dǎo)致“深度偽造”視頻，讓人難以識(shí)別，產(chǎn)生濫用等問題。

技術(shù)報(bào)告揭秘Sora六大核心優(yōu)勢(shì)

值得注意的是，Sora推出的同一天，谷歌發(fā)布了Gemini多模態(tài)模型的更新版本，而三天前，Stability AI推出了新的圖像生成模型Stable Cascade。OpenAI的最新舉動(dòng)無疑將加劇生成式AI圖片和視頻領(lǐng)域的競(jìng)爭(zhēng)。

而在Sora推出后不久，OpenAI發(fā)布了這款新工具的技術(shù)報(bào)告。在報(bào)告中，OpenAI首先重點(diǎn)介紹了如何將不同類型的視覺數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一的格式，以便于對(duì)生成模型進(jìn)行大規(guī)模訓(xùn)練的方法，并對(duì)Sora的能力和局限性進(jìn)行了評(píng)價(jià)。

圖片來源：Sora技術(shù)報(bào)告

《每日經(jīng)濟(jì)新聞》記者經(jīng)過對(duì)報(bào)告的梳理，總結(jié)出了Sora的6大優(yōu)勢(shì)：

（1）準(zhǔn)確性和多樣性：Sora可將簡(jiǎn)短的文本描述轉(zhuǎn)化成長(zhǎng)達(dá)1分鐘的高清視頻。它可以準(zhǔn)確地解釋用戶提供的文本輸入，并生成具有各種場(chǎng)景和人物的高質(zhì)量視頻剪輯。它涵蓋了廣泛的主題，從人物和動(dòng)物到郁郁蔥蔥的風(fēng)景、城市場(chǎng)景、花園，甚至是水下的紐約市，可根據(jù)用戶的要求提供多樣化的內(nèi)容。另據(jù)Medium，Sora能夠準(zhǔn)確解釋長(zhǎng)達(dá)135個(gè)單詞的長(zhǎng)提示。

（2）強(qiáng)大的語言理解：OpenAI利用Dall-E模型的re-captioning（重述要點(diǎn)）技術(shù)，生成視覺訓(xùn)練數(shù)據(jù)的描述性字幕，不僅能提高文本的準(zhǔn)確性，還能提升視頻的整體質(zhì)量。此外，與DALL·E 3類似，OpenAI還利用GPT技術(shù)將簡(jiǎn)短的用戶提示轉(zhuǎn)換為更長(zhǎng)的詳細(xì)轉(zhuǎn)譯，并將其發(fā)送到視頻模型。這使Sora能夠精確地按照用戶提示生成高質(zhì)量的視頻。

（3）以圖/視頻生成視頻：Sora除了可以將文本轉(zhuǎn)化為視頻，還能接受其他類型的輸入提示，如已經(jīng)存在的圖像或視頻。這使Sora能夠執(zhí)行廣泛的圖像和視頻編輯任務(wù)，如創(chuàng)建完美的循環(huán)視頻、將靜態(tài)圖像轉(zhuǎn)化為動(dòng)畫、向前或向后擴(kuò)展視頻等。OpenAI在報(bào)告中展示了基于DALL·E 2和DALL·E 3的圖像生成的demo視頻。這不僅證明了Sora的強(qiáng)大功能，還展示了它在圖像和視頻編輯領(lǐng)域的無限潛力。

（4）視頻擴(kuò)展功能：由于可接受多樣化的輸入提示，用戶可以根據(jù)圖像創(chuàng)建視頻或補(bǔ)充現(xiàn)有視頻。作為基于Transformer的擴(kuò)散模型，Sora還能沿時(shí)間線向前或向后擴(kuò)展視頻。從OpenAI提供的4個(gè)demo視頻看，都從同一個(gè)視頻片段開始，向時(shí)間線的過去進(jìn)行延伸。因此，盡管開頭不同，但視頻結(jié)局都是相同的。

（5）優(yōu)異的設(shè)備適配性：Sora具備出色的采樣能力，從寬屏的1920x1080p到豎屏的1080x1920，兩者之間的任何視頻尺寸都能輕松應(yīng)對(duì)。這意味著Sora能夠?yàn)楦鞣N設(shè)備生成與其原始縱橫比完美匹配的內(nèi)容。而在生成高分辨率內(nèi)容之前，Sora還能以小尺寸迅速創(chuàng)建內(nèi)容原型。

（6）場(chǎng)景和物體的一致性和連續(xù)性：Sora可以生成帶有動(dòng)態(tài)視角變化的視頻，人物和場(chǎng)景元素在三維空間中的移動(dòng)會(huì)顯得更加自然。Sora 能夠很好地處理遮擋問題?，F(xiàn)有模型的一個(gè)問題是，當(dāng)物體離開視野時(shí)，它們可能無法對(duì)其進(jìn)行追蹤。而通過一次性提供多幀預(yù)測(cè)，Sora可確保畫面主體即使暫時(shí)離開視野也能保持不變。

圖片來源：Sora技術(shù)報(bào)告

據(jù)外媒報(bào)道，Sora的推出標(biāo)志著AI研究的一個(gè)重要里程碑。憑借其模擬和理解現(xiàn)實(shí)世界的能力，Sora為未來實(shí)現(xiàn)通用人工智能（AGI）奠定了基礎(chǔ)。從本質(zhì)上講，Sora不僅僅是生成視頻，而是在突破AI所能完成的極限。

伊利諾伊大學(xué)厄巴納-香檳分校信息科學(xué)教授Ted Underwood表示：“就算是在未來的2-3年，我也沒想過視頻制作可以達(dá)到這樣持續(xù)、連貫的水平。”他表示，與其他文本到視頻工具相比，“容量似乎有所提升”。

OpenAI CEO阿爾特曼在X平臺(tái)上透露，Sora目前已向紅隊(duì)成員（red teamers，指的是誤導(dǎo)信息、仇恨內(nèi)容和偏見內(nèi)容等方面的專家）和部分創(chuàng)意人士開放。

業(yè)內(nèi)人士：Sora可能讓AGI在1年左右實(shí)現(xiàn)

英偉達(dá)人工智能研究院首席研究科學(xué)家Jim Fan則在X平臺(tái)發(fā)文表示，“如果你還是把Sora看成DALLE那樣的生成式玩具，還是好好想想吧，這是一個(gè)數(shù)據(jù)驅(qū)動(dòng)的物理引擎。他是對(duì)許多世界的模擬，無論是真實(shí)的還是幻想的。”他認(rèn)為，Sora是一個(gè)可學(xué)習(xí)的模擬器，或“世界模型”。

在他看來，Sora代表了文本生成視頻的GPT-3 時(shí)刻。而針對(duì)部分稱“Sora并沒有學(xué)習(xí)物理，僅僅是在二維空間里對(duì)像素進(jìn)行操作”的聲音，他表示，Sora所展現(xiàn)的軟物理仿真實(shí)際上是一種隨著規(guī)模擴(kuò)大而出現(xiàn)的特性。Sora 必須學(xué)習(xí)一些隱式的文本到 3D、3D 變換、光線追蹤渲染和物理規(guī)則，才有可能精確地模擬視頻像素。它必須理解游戲引擎的概念，才有可能生成視頻。

圖片來源：X平臺(tái)

在前女友格萊姆斯的一條推文下方，馬斯克回應(yīng)稱：“有了AI加持的人類將在未來幾年里創(chuàng)造出最好的作品。” 格萊姆斯在X平臺(tái)上發(fā)布了多條推文，討論OpenAI這項(xiàng)新技術(shù)對(duì)電影以及更廣泛的藝術(shù)創(chuàng)作的影響。此外，有網(wǎng)友在評(píng)論Sora生成的60秒時(shí)尚女子在東京街頭散步時(shí)稱，“gg Pixar（皮克斯動(dòng)畫制作公司）”（編注：gg為Good Games縮寫，代指“打得好，我認(rèn)輸” ），隨后馬斯克回復(fù)，“gg humans（人類）”。

圖片來源：X平臺(tái)

對(duì)于Sora的最大優(yōu)勢(shì)，360集團(tuán)創(chuàng)始人、董事長(zhǎng)周鴻祎說，“這次OpenAI利用它的大語言模型優(yōu)勢(shì)，讓Sora實(shí)現(xiàn)了對(duì)現(xiàn)實(shí)世界的理解和對(duì)世界的模擬兩層能力，這樣產(chǎn)生的視頻才是真實(shí)的，才能跳出2D的范圍模擬真實(shí)的物理世界。”他同時(shí)稱，“一旦人工智能接上攝像頭，把所有的電影都看一遍，把YouTube上和 TikTok 的視頻都看一遍，對(duì)世界的理解將遠(yuǎn)遠(yuǎn)超過文字學(xué)習(xí)，一幅圖勝過千言萬語，這就離AGI真的就不遠(yuǎn)了，不是10年、20年的問題，可能一兩年很快就可以實(shí)現(xiàn)。”

影視等行業(yè)面臨顛覆

然而，Sora在帶來無限可能的同時(shí)，也將對(duì)部分行業(yè)產(chǎn)生巨大的影響，包括影視、廣告制作、教育、游戲、新聞和動(dòng)畫等領(lǐng)域。

談及Sora的行業(yè)沖擊時(shí)，Jim Fan評(píng)價(jià)道，Sora的物理學(xué)理解目前還是脆弱的，遠(yuǎn)非完美。它仍然會(huì)產(chǎn)生幻覺，生成與物理常識(shí)不符的事物，還沒有很好地掌握物體交互的原理。

周鴻祎對(duì)此也深以為然，他指出，AI不一定那么快顛覆所有行業(yè)，但它能激發(fā)更多人的創(chuàng)作力。他表示，“Sora只是小試牛刀，它展現(xiàn)的不僅僅是一個(gè)視頻制作的能力，而是大模型對(duì)真實(shí)世界有了理解和模擬之后，會(huì)帶來新的成果和突破。”

他解釋說，“機(jī)器能生產(chǎn)一個(gè)好視頻，但視頻的主題、腳本和分鏡頭策劃、臺(tái)詞的配合，都需要人的創(chuàng)意至少需要人給提示詞。”他強(qiáng)調(diào)，科技競(jìng)爭(zhēng)最終比拼的是人才密度和深厚積累。

而對(duì)于Sora當(dāng)前存在的弱點(diǎn)，OpenAI也明確指出，它可能難以準(zhǔn)確模擬復(fù)雜場(chǎng)景的物理原理，并且可能無法理解因果關(guān)系。該模型還可能混淆提示的空間細(xì)節(jié)，例如混淆左右，并且可能難以精確描述隨著時(shí)間推移發(fā)生的事件，如遵循特定的相機(jī)軌跡。而這些缺陷可能導(dǎo)致Sora生成一些不合邏輯的東西，比如一個(gè)人在跑步機(jī)上跑錯(cuò)方向，以不自然的方式改變主題，甚至出現(xiàn)憑空消失的現(xiàn)象。

濫用仍是最大的擔(dān)憂

隨著名人、政客等人物的深度造假視頻在網(wǎng)上變得越來越普遍，相應(yīng)的倫理和安全問題也讓人心驚，尤其是在總統(tǒng)選舉年和緊張的政治局勢(shì)背景下。

Gartner分析師Arun Chandrasekaran表示，“鑒于這項(xiàng)技術(shù)確實(shí)非常新，他們必須對(duì)其進(jìn)行充分控制，以防止其被濫用和誤用，甚至客戶在沒有認(rèn)識(shí)到這項(xiàng)新興技術(shù)所有局限性的情況下使用它。”他補(bǔ)充道，OpenAI為該模型設(shè)置的防護(hù)措施以及確定誰可以獲得訪問權(quán)限至關(guān)重要。

牛津互聯(lián)網(wǎng)學(xué)院客座政策研究員Mutale Nkonde也表示，任何人都可以輕松地將文本轉(zhuǎn)換為視頻這一想法令人興奮。但同時(shí)，她也擔(dān)心這些工具可能會(huì)植入社會(huì)偏見和仇恨內(nèi)容，對(duì)人們生計(jì)造成影響等。

普林斯頓大學(xué)計(jì)算機(jī)科學(xué)教授Arvind Narayanan對(duì)此也有擔(dān)憂，認(rèn)為Sora這類技術(shù)可能會(huì)導(dǎo)致“深度偽造”視頻，讓人們難以識(shí)別。雖然AI制作的視頻仍會(huì)有一些不一致的地方，但普通人可能不會(huì)注意到這些細(xì)節(jié)。“遲早，我們需要適應(yīng)現(xiàn)實(shí)主義不再是真實(shí)性的標(biāo)志這一事實(shí)。”

針對(duì)業(yè)界的擔(dān)憂，與此同時(shí)，監(jiān)管機(jī)構(gòu)也在加強(qiáng)管理。美國(guó)聯(lián)邦貿(mào)易委員會(huì)（FTC）2月15日提出了禁止使用AI工具冒充個(gè)人的規(guī)則。FTC表示，它正在提議修改一項(xiàng)已經(jīng)禁止冒充企業(yè)或政府機(jī)構(gòu)的規(guī)則，將保護(hù)范圍擴(kuò)大到所有個(gè)人。

免責(zé)聲明：本文內(nèi)容與數(shù)據(jù)僅供參考，不構(gòu)成投資建議，使用前請(qǐng)核實(shí)。據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

封面圖片來源：Sora技術(shù)報(bào)告

如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

“兩只金毛獵犬在山頂播客” “火星上日落時(shí)的一場(chǎng)極具未來感的無人機(jī)比賽” “在一個(gè)與自然和諧共生，同時(shí)又有超強(qiáng)朋克氣質(zhì)和高科技屬性的未來城市漫游……” 根據(jù)上述提示詞，OpenAI首席執(zhí)行官阿爾特曼在X平臺(tái)上發(fā)布了一系列視頻，精美的場(chǎng)景讓用戶驚嘆不已。而這些視頻全都是通過OpenAI 2月15日發(fā)布的最新視頻生成模型Sora制作的，用戶震驚之余，也給予了Sora高度評(píng)價(jià)，將其描述為“絕無僅有”和“游戲規(guī)則改變者”。圖片來源：X平臺(tái) Sora采用了OpenAI文生圖模型DALL-E 3背后的強(qiáng)大技術(shù)，可將簡(jiǎn)短的文本描述轉(zhuǎn)化成長(zhǎng)達(dá)1分鐘的高清視頻。業(yè)界大佬Gabor Cselle將Sora和Pika、RunwayML和Stable Video進(jìn)行對(duì)比后發(fā)現(xiàn)，在輸入相同的提示后，其他主流工具生成的視頻都大約只有5秒鐘，Sora可以在一段長(zhǎng)達(dá)17秒視頻場(chǎng)景中，保持動(dòng)作和畫面一致性。英偉達(dá)人工智能研究院首席研究科學(xué)家Jim Fan也對(duì)Sora的能力發(fā)出感嘆，稱這是視頻生成領(lǐng)域的GPT-3時(shí)刻。他表示，Sora是一個(gè)“數(shù)據(jù)驅(qū)動(dòng)的物理引擎”，一個(gè)可學(xué)習(xí)的模擬器或“世界模型”。360集團(tuán)創(chuàng)始人、董事長(zhǎng)周鴻祎則稱，隨著Sora的到來，人類離AGI真的就不遠(yuǎn)了，不是10年、20年的問題，可能一兩年很快就可以實(shí)現(xiàn)。在隨后發(fā)布的技術(shù)報(bào)告中，OpenAI介紹了Sora的強(qiáng)大性能以及背后的支撐技術(shù)，也對(duì)Sora的局限性進(jìn)行了客觀的分析?！睹咳战?jīng)濟(jì)新聞》記者通過梳理，總結(jié)出了Sora的六大核心優(yōu)勢(shì)。從技術(shù)上看，Sora有望將數(shù)字內(nèi)容的創(chuàng)造力和真實(shí)感提升到新的水平，但凡事總有兩面性，影視、廣告制作和視頻等行業(yè)也將面臨嚴(yán)重的沖擊。另外，有專家對(duì)于技術(shù)的迅猛發(fā)展也表示出了擔(dān)憂，稱這類技術(shù)可能會(huì)導(dǎo)致“深度偽造”視頻，讓人難以識(shí)別，產(chǎn)生濫用等問題。技術(shù)報(bào)告揭秘Sora六大核心優(yōu)勢(shì) 值得注意的是，Sora推出的同一天，谷歌發(fā)布了Gemini多模態(tài)模型的更新版本，而三天前，Stability AI推出了新的圖像生成模型Stable Cascade。OpenAI的最新舉動(dòng)無疑將加劇生成式AI圖片和視頻領(lǐng)域的競(jìng)爭(zhēng)。而在Sora推出后不久，OpenAI發(fā)布了這款新工具的技術(shù)報(bào)告。在報(bào)告中，OpenAI首先重點(diǎn)介紹了如何將不同類型的視覺數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一的格式，以便于對(duì)生成模型進(jìn)行大規(guī)模訓(xùn)練的方法，并對(duì)Sora的能力和局限性進(jìn)行了評(píng)價(jià)。圖片來源：Sora技術(shù)報(bào)告《每日經(jīng)濟(jì)新聞》記者經(jīng)過對(duì)報(bào)告的梳理，總結(jié)出了Sora的6大優(yōu)勢(shì)：（1）準(zhǔn)確性和多樣性：Sora可將簡(jiǎn)短的文本描述轉(zhuǎn)化成長(zhǎng)達(dá)1分鐘的高清視頻。它可以準(zhǔn)確地解釋用戶提供的文本輸入，并生成具有各種場(chǎng)景和人物的高質(zhì)量視頻剪輯。它涵蓋了廣泛的主題，從人物和動(dòng)物到郁郁蔥蔥的風(fēng)景、城市場(chǎng)景、花園，甚至是水下的紐約市，可根據(jù)用戶的要求提供多樣化的內(nèi)容。另據(jù)Medium，Sora能夠準(zhǔn)確解釋長(zhǎng)達(dá)135個(gè)單詞的長(zhǎng)提示。（2）強(qiáng)大的語言理解：OpenAI利用Dall-E模型的re-captioning（重述要點(diǎn)）技術(shù)，生成視覺訓(xùn)練數(shù)據(jù)的描述性字幕，不僅能提高文本的準(zhǔn)確性，還能提升視頻的整體質(zhì)量。此外，與DALL·E 3類似，OpenAI還利用GPT技術(shù)將簡(jiǎn)短的用戶提示轉(zhuǎn)換為更長(zhǎng)的詳細(xì)轉(zhuǎn)譯，并將其發(fā)送到視頻模型。這使Sora能夠精確地按照用戶提示生成高質(zhì)量的視頻。（3）以圖/視頻生成視頻：Sora除了可以將文本轉(zhuǎn)化為視頻，還能接受其他類型的輸入提示，如已經(jīng)存在的圖像或視頻。這使Sora能夠執(zhí)行廣泛的圖像和視頻編輯任務(wù)，如創(chuàng)建完美的循環(huán)視頻、將靜態(tài)圖像轉(zhuǎn)化為動(dòng)畫、向前或向后擴(kuò)展視頻等。OpenAI在報(bào)告中展示了基于DALL·E 2和DALL·E 3的圖像生成的demo視頻。這不僅證明了Sora的強(qiáng)大功能，還展示了它在圖像和視頻編輯領(lǐng)域的無限潛力。（4）視頻擴(kuò)展功能：由于可接受多樣化的輸入提示，用戶可以根據(jù)圖像創(chuàng)建視頻或補(bǔ)充現(xiàn)有視頻。作為基于Transformer的擴(kuò)散模型，Sora還能沿時(shí)間線向前或向后擴(kuò)展視頻。從OpenAI提供的4個(gè)demo視頻看，都從同一個(gè)視頻片段開始，向時(shí)間線的過去進(jìn)行延伸。因此，盡管開頭不同，但視頻結(jié)局都是相同的。（5）優(yōu)異的設(shè)備適配性：Sora具備出色的采樣能力，從寬屏的1920x1080p到豎屏的1080x1920，兩者之間的任何視頻尺寸都能輕松應(yīng)對(duì)。這意味著Sora能夠?yàn)楦鞣N設(shè)備生成與其原始縱橫比完美匹配的內(nèi)容。而在生成高分辨率內(nèi)容之前，Sora還能以小尺寸迅速創(chuàng)建內(nèi)容原型。（6）場(chǎng)景和物體的一致性和連續(xù)性：Sora可以生成帶有動(dòng)態(tài)視角變化的視頻，人物和場(chǎng)景元素在三維空間中的移動(dòng)會(huì)顯得更加自然。Sora 能夠很好地處理遮擋問題?，F(xiàn)有模型的一個(gè)問題是，當(dāng)物體離開視野時(shí)，它們可能無法對(duì)其進(jìn)行追蹤。而通過一次性提供多幀預(yù)測(cè)，Sora可確保畫面主體即使暫時(shí)離開視野也能保持不變。圖片來源：Sora技術(shù)報(bào)告據(jù)外媒報(bào)道，Sora的推出標(biāo)志著AI研究的一個(gè)重要里程碑。憑借其模擬和理解現(xiàn)實(shí)世界的能力，Sora為未來實(shí)現(xiàn)通用人工智能（AGI）奠定了基礎(chǔ)。從本質(zhì)上講，Sora不僅僅是生成視頻，而是在突破AI所能完成的極限。伊利諾伊大學(xué)厄巴納-香檳分校信息科學(xué)教授Ted Underwood表示：“就算是在未來的2-3年，我也沒想過視頻制作可以達(dá)到這樣持續(xù)、連貫的水平?！彼硎?，與其他文本到視頻工具相比，“容量似乎有所提升”。 OpenAI CEO阿爾特曼在X平臺(tái)上透露，Sora目前已向紅隊(duì)成員（red teamers，指的是誤導(dǎo)信息、仇恨內(nèi)容和偏見內(nèi)容等方面的專家）和部分創(chuàng)意人士開放。業(yè)內(nèi)人士：Sora可能讓AGI在1年左右實(shí)現(xiàn) 英偉達(dá)人工智能研究院首席研究科學(xué)家Jim Fan則在X平臺(tái)發(fā)文表示，“如果你還是把Sora看成DALLE那樣的生成式玩具，還是好好想想吧，這是一個(gè)數(shù)據(jù)驅(qū)動(dòng)的物理引擎。他是對(duì)許多世界的模擬，無論是真實(shí)的還是幻想的?！彼J(rèn)為，Sora是一個(gè)可學(xué)習(xí)的模擬器，或“世界模型”。在他看來，Sora代表了文本生成視頻的GPT-3 時(shí)刻。而針對(duì)部分稱“Sora并沒有學(xué)習(xí)物理，僅僅是在二維空間里對(duì)像素進(jìn)行操作”的聲音，他表示，Sora所展現(xiàn)的軟物理仿真實(shí)際上是一種隨著規(guī)模擴(kuò)大而出現(xiàn)的特性。Sora 必須學(xué)習(xí)一些隱式的文本到 3D、3D 變換、光線追蹤渲染和物理規(guī)則，才有可能精確地模擬視頻像素。它必須理解游戲引擎的概念，才有可能生成視頻。圖片來源：X平臺(tái) 在前女友格萊姆斯的一條推文下方，馬斯克回應(yīng)稱：“有了AI加持的人類將在未來幾年里創(chuàng)造出最好的作品?！?格萊姆斯在X平臺(tái)上發(fā)布了多條推文，討論OpenAI這項(xiàng)新技術(shù)對(duì)電影以及更廣泛的藝術(shù)創(chuàng)作的影響。此外，有網(wǎng)友在評(píng)論Sora生成的60秒時(shí)尚女子在東京街頭散步時(shí)稱，“gg Pixar（皮克斯動(dòng)畫制作公司）”（編注：gg為Good Games縮寫，代指“打得好，我認(rèn)輸” ），隨后馬斯克回復(fù)，“gg humans（人類）”。圖片來源：X平臺(tái) 對(duì)于Sora的最大優(yōu)勢(shì)，360集團(tuán)創(chuàng)始人、董事長(zhǎng)周鴻祎說，“這次OpenAI利用它的大語言模型優(yōu)勢(shì)，讓Sora實(shí)現(xiàn)了對(duì)現(xiàn)實(shí)世界的理解和對(duì)世界的模擬兩層能力，這樣產(chǎn)生的視頻才是真實(shí)的，才能跳出2D的范圍模擬真實(shí)的物理世界?！彼瑫r(shí)稱，“一旦人工智能接上攝像頭，把所有的電影都看一遍，把YouTube上和 TikTok 的視頻都看一遍，對(duì)世界的理解將遠(yuǎn)遠(yuǎn)超過文字學(xué)習(xí)，一幅圖勝過千言萬語，這就離AGI真的就不遠(yuǎn)了，不是10年、20年的問題，可能一兩年很快就可以實(shí)現(xiàn)?！? 影視等行業(yè)面臨顛覆然而，Sora在帶來無限可能的同時(shí)，也將對(duì)部分行業(yè)產(chǎn)生巨大的影響，包括影視、廣告制作、教育、游戲、新聞和動(dòng)畫等領(lǐng)域。談及Sora的行業(yè)沖擊時(shí)，Jim Fan評(píng)價(jià)道，Sora的物理學(xué)理解目前還是脆弱的，遠(yuǎn)非完美。它仍然會(huì)產(chǎn)生幻覺，生成與物理常識(shí)不符的事物，還沒有很好地掌握物體交互的原理。周鴻祎對(duì)此也深以為然，他指出，AI不一定那么快顛覆所有行業(yè)，但它能激發(fā)更多人的創(chuàng)作力。他表示，“Sora只是小試牛刀，它展現(xiàn)的不僅僅是一個(gè)視頻制作的能力，而是大模型對(duì)真實(shí)世界有了理解和模擬之后，會(huì)帶來新的成果和突破?！? 他解釋說，“機(jī)器能生產(chǎn)一個(gè)好視頻，但視頻的主題、腳本和分鏡頭策劃、臺(tái)詞的配合，都需要人的創(chuàng)意至少需要人給提示詞?！彼麖?qiáng)調(diào)，科技競(jìng)爭(zhēng)最終比拼的是人才密度和深厚積累。而對(duì)于Sora當(dāng)前存在的弱點(diǎn)，OpenAI也明確指出，它可能難以準(zhǔn)確模擬復(fù)雜場(chǎng)景的物理原理，并且可能無法理解因果關(guān)系。該模型還可能混淆提示的空間細(xì)節(jié)，例如混淆左右，并且可能難以精確描述隨著時(shí)間推移發(fā)生的事件，如遵循特定的相機(jī)軌跡。而這些缺陷可能導(dǎo)致Sora生成一些不合邏輯的東西，比如一個(gè)人在跑步機(jī)上跑錯(cuò)方向，以不自然的方式改變主題，甚至出現(xiàn)憑空消失的現(xiàn)象。濫用仍是最大的擔(dān)憂隨著名人、政客等人物的深度造假視頻在網(wǎng)上變得越來越普遍，相應(yīng)的倫理和安全問題也讓人心驚，尤其是在總統(tǒng)選舉年和緊張的政治局勢(shì)背景下。 Gartner分析師Arun Chandrasekaran表示，“鑒于這項(xiàng)技術(shù)確實(shí)非常新，他們必須對(duì)其進(jìn)行充分控制，以防止其被濫用和誤用，甚至客戶在沒有認(rèn)識(shí)到這項(xiàng)新興技術(shù)所有局限性的情況下使用它?！彼a(bǔ)充道，OpenAI為該模型設(shè)置的防護(hù)措施以及確定誰可以獲得訪問權(quán)限至關(guān)重要。牛津互聯(lián)網(wǎng)學(xué)院客座政策研究員Mutale Nkonde也表示，任何人都可以輕松地將文本轉(zhuǎn)換為視頻這一想法令人興奮。但同時(shí)，她也擔(dān)心這些工具可能會(huì)植入社會(huì)偏見和仇恨內(nèi)容，對(duì)人們生計(jì)造成影響等。普林斯頓大學(xué)計(jì)算機(jī)科學(xué)教授Arvind Narayanan對(duì)此也有擔(dān)憂，認(rèn)為Sora這類技術(shù)可能會(huì)導(dǎo)致“深度偽造”視頻，讓人們難以識(shí)別。雖然AI制作的視頻仍會(huì)有一些不一致的地方，但普通人可能不會(huì)注意到這些細(xì)節(jié)?！斑t早，我們需要適應(yīng)現(xiàn)實(shí)主義不再是真實(shí)性的標(biāo)志這一事實(shí)?！? 針對(duì)業(yè)界的擔(dān)憂，與此同時(shí)，監(jiān)管機(jī)構(gòu)也在加強(qiáng)管理。美國(guó)聯(lián)邦貿(mào)易委員會(huì)（FTC）2月15日提出了禁止使用AI工具冒充個(gè)人的規(guī)則。FTC表示，它正在提議修改一項(xiàng)已經(jīng)禁止冒充企業(yè)或政府機(jī)構(gòu)的規(guī)則，將保護(hù)范圍擴(kuò)大到所有個(gè)人。免責(zé)聲明：本文內(nèi)容與數(shù)據(jù)僅供參考，不構(gòu)成投資建議，使用前請(qǐng)核實(shí)。據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

一周熱點(diǎn) OpenAI 視頻 Ai 人工智能一周熱點(diǎn)

上一篇文章

新疆阿克蘇地區(qū)烏什縣發(fā)生3.1級(jí)地震

返回每經(jīng)網(wǎng)首頁

下一篇文章

跌出全球前三！日本經(jīng)濟(jì)失速，股市卻逆勢(shì)飆升，負(fù)利率能否如預(yù)期終結(jié)？

相關(guān)文章

熱文精選

點(diǎn)擊排行

歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

每經(jīng)經(jīng)濟(jì)新聞官方APP

關(guān)注我們
辟謠專區(qū)

加入我們
招聘專頁

Copyright ? 2025 每日經(jīng)濟(jì)新聞報(bào)社版權(quán)所有，未經(jīng)許可不得轉(zhuǎn)載使用，違者必究。

廣告熱線? 北京: 010-57613265，?上海: 021-61283008，?廣州: 020-84201861，?深圳: 0755-83520159，?成都: 028-86512112

網(wǎng)絡(luò)社會(huì)征信網(wǎng)

兒童色情信息舉報(bào)專區(qū)

成都市互聯(lián)網(wǎng)不良與違法信息舉報(bào)中心

四川省互聯(lián)網(wǎng)舉報(bào)中心

中國(guó)互聯(lián)網(wǎng)舉報(bào)中心

每日經(jīng)濟(jì)新聞互聯(lián)網(wǎng)不良與違法信息舉報(bào)中心

互聯(lián)網(wǎng)新聞信息服務(wù)許可證：51120190017 網(wǎng)站備案號(hào)：蜀ICP備19004508號(hào)-3 川公網(wǎng)安備 51019002002026號(hào)

新聞職業(yè)道德監(jiān)督熱線：400 889 0008 郵箱：zbb@nbd.com.cn

免费va国产高清不卡大片,笑看风云电视剧,亚洲黄色性爱在线观看,成人在线免费