每日經(jīng)濟(jì)新聞 2024-04-28 17:58:03
每經(jīng)編輯 黃勝
2月16日,OpenAI推出新的AI大模型Sora,該文生視頻大模型可通過(guò)快速文本提示創(chuàng)建“逼真”和“富有想象力”的60秒視頻。
一個(gè)月之后,第一波試用者對(duì)使用情況進(jìn)行了反饋。
4月份,OpenAI官方賬號(hào)發(fā)布的一支由Sora制作的MV(Music Video)——《Worldweight》,引發(fā)了不少網(wǎng)友們的圍觀。
目前,Sora已經(jīng)成為視頻大模型的標(biāo)桿。有人說(shuō),在視頻生成領(lǐng)域,只有兩種模型:OpenAI Sora模型,以及其他不是Sora的模型。
然而,Sora何時(shí)才能開放給公眾使用,OpenAI方面始終沒(méi)有給出具體的時(shí)間表。
內(nèi)測(cè)中的Sora表現(xiàn)優(yōu)異,但OpenAI卻遲遲沒(méi)有正式對(duì)外開放Sora,這背后可能會(huì)有成本原因的考慮。知名科技作家Robert Scoble在社交平臺(tái)X上就表示,普通用戶僅僅每月支付20美元并不能涵蓋生成人工智能視頻的成本。
近日,NoPriors播客發(fā)布了對(duì)Sora項(xiàng)目團(tuán)隊(duì)三位負(fù)責(zé)人Tim Brooks、William Peebles(昵稱Bill)和Aditya Ramesh的專訪。
Tim Brooks是DALL-E 3的主要作者之一。他本科就讀于卡內(nèi)基梅隆大學(xué),主修邏輯與計(jì)算,輔修計(jì)算機(jī)科學(xué)。去年1月,他順利從加州大學(xué)伯克利分校獲得博士學(xué)位后,立即加入OpenAI,參與了DALL-E 3和Sora的開發(fā)工作。
Bill本科就讀于麻省理工學(xué)院,主修計(jì)算機(jī)科學(xué)。在校期間,他參與了GAN和text2video的研究,還在英偉達(dá)實(shí)習(xí),專注于深度學(xué)習(xí)、自動(dòng)駕駛和計(jì)算機(jī)視覺(jué)。去年5月,Bill從伯克利畢業(yè)后也加入了OpenAI。
Aditya Ramesh在OpenAI已經(jīng)是個(gè)"老人"。作為DALL-E的創(chuàng)造者,他主導(dǎo)了三代DALL-E的研究工作。
在訪談中,這三位Sora負(fù)責(zé)人對(duì)外界關(guān)心的有關(guān)Sora的諸多方面問(wèn)題給出了回答。
核心內(nèi)容:
1,我們目前還沒(méi)有制定產(chǎn)品的即時(shí)計(jì)劃,甚至沒(méi)有制定產(chǎn)品的時(shí)間表。
2,現(xiàn)階段的Sora,就像是新視覺(jué)模型的GPT-1。
3,(關(guān)于偽造和安全)我認(rèn)為這里要弄清楚的一個(gè)關(guān)鍵問(wèn)題是,部署這項(xiàng)技術(shù)的公司承擔(dān)多少責(zé)任?例如,社交媒體公司應(yīng)該做多少工作來(lái)告知用戶他們看到的內(nèi)容可能不是來(lái)自可信來(lái)源?用戶在使用這項(xiàng)技術(shù)創(chuàng)造某些東西時(shí)要承擔(dān)多少責(zé)任?
4,這項(xiàng)技術(shù)有可能讓許多有才華橫溢、富有創(chuàng)造力的人創(chuàng)造出他們想要的東西。
5,在讓這項(xiàng)技術(shù)更廣泛地普及方面,有很多服務(wù)方面的考慮需要考慮。一個(gè)大問(wèn)題是如何讓這項(xiàng)技術(shù)足夠便宜,讓人們可以使用。
6,我們思考事物的方式是有一個(gè)缺陷,就是沒(méi)有那么高的保真度。因此,我們對(duì)Sora的前景持樂(lè)觀態(tài)度,認(rèn)為它將取代人類的某些能力。從長(zhǎng)遠(yuǎn)來(lái)看,我們相信Sora有朝一日將超越人類的智慧,成為世界模型的代表。
以下為訪談節(jié)選:
主持人:很好?;蛟S我們可以從 OpenAI 的使命開始談起,那就是實(shí)現(xiàn) AGI,也就是更強(qiáng)大的人工智能。那么,文本轉(zhuǎn)視頻的技術(shù)是否符合這個(gè)使命呢?你們是如何開始研究這個(gè)領(lǐng)域的呢?
Bill:是的,我們堅(jiān)信像 Sora 這樣的模型確實(shí)是實(shí)現(xiàn) AGI 的關(guān)鍵步驟。
展望未來(lái),為了生成真正逼真的視頻,你必須學(xué)習(xí)一些關(guān)于人們?nèi)绾喂ぷ?、如何與他人互動(dòng)、最終如何思考的模型。這不僅包括人,還有動(dòng)物,以及任何你想要模擬的物體。因此,展望未來(lái),隨著我們繼續(xù)擴(kuò)大像Sora 這樣的模型,我們將能夠構(gòu)建這些類似世界模擬器的東西。隨著我們未來(lái)擴(kuò)大Sora的規(guī)模,AGI就會(huì)實(shí)現(xiàn)。
主持人:在更廣泛地使用 Sora 之前,您需要做什么工作?Tim,你愿意談?wù)勥@個(gè)問(wèn)題嗎?
Tim:是的,我們目前還沒(méi)有制定產(chǎn)品的即時(shí)計(jì)劃,甚至沒(méi)有制定產(chǎn)品的時(shí)間表。然而,我們將Sora的訪問(wèn)權(quán)限提供給一小部分藝術(shù)家以及紅隊(duì)成員,以開始了解Sora將產(chǎn)生的影響。我們從藝術(shù)家那里得到了反饋,關(guān)于如何讓它成為對(duì)他們最有用的工具,并從“紅隊(duì)成員”那里得到了反饋,關(guān)于如何讓它安全,如何將它介紹給公眾。
主持人:我知道,當(dāng)它推出時(shí),很多人都被一些圖像所震撼。你會(huì)看到一只貓?jiān)谒刂械挠白踊蛑T如此類的東西。但我只是好奇,隨著越來(lái)越多的人開始使用它,你看到了什么。
Tim:是的,看到藝術(shù)家們用這個(gè)模型生成的成果,真的很棒。
作為一個(gè)喜歡創(chuàng)造內(nèi)容但又沒(méi)有足夠技能的人,使用這個(gè)模型并激發(fā)出一堆想法,并得到一些非常引人注目的東西是非常容易的。比如,在迭代提示方面,實(shí)際生成它所花費(fèi)的時(shí)間真的不到一個(gè)小時(shí)。我非常高興地看到藝術(shù)家們也熱衷于使用這些模型,并從中創(chuàng)作出精彩的作品。
主持人:這些模型在短片或其他領(lǐng)域的廣泛應(yīng)用的時(shí)間表是什么?我們何時(shí)會(huì)開始看到來(lái)自Sora或其他模型的實(shí)際內(nèi)容,并成為更廣泛媒體類型的一部分?
Tim:我沒(méi)有確切的時(shí)間表預(yù)測(cè),但我對(duì)此非常感興趣,那就是除了傳統(tǒng)電影之外,人們可能會(huì)將其用于什么。我認(rèn)為,在接下來(lái)的幾年里,我們會(huì)看到人們開始制作越來(lái)越多的電影,但我認(rèn)為人們也會(huì)找到使用這些模型的全新方式,這些方式與我們習(xí)慣的當(dāng)前媒體完全不同。
主持人:Aditya在OpenAI工作了大約五年,因此你見(jiàn)證了許多模型和公司的發(fā)展。當(dāng)你考慮這個(gè)世界模擬模型的功能時(shí),你認(rèn)為它會(huì)成為模擬的物理引擎嗎?我對(duì)未來(lái)可能出現(xiàn)的其他一些前瞻性應(yīng)用非常好奇。
Aditya:是的,我完全認(rèn)為在視頻模型中進(jìn)行模擬是我們將來(lái)能夠做到的事情。
Bill:你可以從視頻中學(xué)到很多東西。OpenAI等公司過(guò)去在這方面投入了大量資金,比如語(yǔ)言,比如手臂和關(guān)節(jié)如何在空間中移動(dòng)的細(xì)節(jié),它們是如何以物理上準(zhǔn)確的方式與地面接觸的。所以,你只需通過(guò)對(duì)原始視頻的訓(xùn)練就能學(xué)到很多關(guān)于物理世界的知識(shí),我們真的相信,這對(duì)于未來(lái)的物理體現(xiàn)等事情至關(guān)重要。
主持人:再談?wù)勀P捅旧?。Tim,你能描述一下什么是擴(kuò)散Transformer嗎?
Tim:擴(kuò)散是一種數(shù)據(jù)生成過(guò)程。這個(gè)過(guò)程從噪音開始,通過(guò)反復(fù)多次去除噪音,直到最終去除了足夠多的噪音,只生成一個(gè)樣本。這就是我們生成視頻的過(guò)程。
從架構(gòu)角度來(lái)看,我們的模型必須是可擴(kuò)展的,它們需要能夠從大量數(shù)據(jù)中學(xué)習(xí),并理解視頻中那些非常復(fù)雜且具有挑戰(zhàn)性的關(guān)系,這一點(diǎn)至關(guān)重要。因此,我們采用了一種類似于GPT模型的架構(gòu),稱為Transformer。因此,將這兩個(gè)概念與Transformer架構(gòu)結(jié)合起來(lái)的擴(kuò)散Transformer使我們能夠擴(kuò)展這些模型。隨著我們投入更多的計(jì)算和更多的數(shù)據(jù)來(lái)訓(xùn)練它們,它們的性能會(huì)越來(lái)越好。
主持人:Sora最引人注目的一點(diǎn)就是它的視覺(jué)美感。我對(duì)此感到好奇,你是如何調(diào)整或制作這種美感的?
Bill:實(shí)際上,我們并沒(méi)有為Sora投入大量精力。我認(rèn)為Sora的語(yǔ)言理解絕對(duì)允許用戶以一種比其他模型更難的方式來(lái)操縱它。你可以提供很多提示和視覺(jué)提示,這些提示將引導(dǎo)模型朝著你想要的代數(shù)類型發(fā)展。
我認(rèn)為展望未來(lái),模型會(huì)賦予人們某種力量,讓他們理解你的個(gè)人審美感,這將是很多人期待的事情。
我們接觸的許多藝術(shù)家和創(chuàng)作者都希望將他們的全部資產(chǎn)上傳到模型中,這樣在寫標(biāo)題時(shí)就可以借鑒大量的作品,并讓模型理解他們?cè)O(shè)計(jì)公司幾十年來(lái)積累的術(shù)語(yǔ)等等。因此我認(rèn)為個(gè)性化以及它如何與美學(xué)結(jié)合在一起將會(huì)成為以后值得探索的一件很酷的事情。
主持人:我認(rèn)為Tim所說(shuō)的就像超越傳統(tǒng)娛樂(lè)的新應(yīng)用。但這在計(jì)算上很昂貴,很難,而且不太可能。但我會(huì)講述一個(gè)故事,并讓神奇的視覺(jué)效果實(shí)時(shí)發(fā)生。我們會(huì)得到它嗎?
Tim:我認(rèn)為我們正朝著那個(gè)方向前進(jìn)。還有不同的娛樂(lè)模式、不同的教育模式和交流模式。娛樂(lè)是其中很重要的一部分,但我認(rèn)為一旦真正理解了我們的世界,就會(huì)有很多潛在的應(yīng)用。我們的世界和我們體驗(yàn)世界的方式很大程度上都是視覺(jué)化的。這些模型真正酷的地方在于,它們開始更好地理解我們的世界、我們的生活和我們所做的事情。我們可以利用這些技術(shù)來(lái)娛樂(lè)自己,也可以用它們來(lái)教育我們。有時(shí)候,當(dāng)我想學(xué)習(xí)一些東西時(shí),最有效的方法就是找一個(gè)定制的教育視頻來(lái)解釋。同樣,如果我想和某人交流一些觀點(diǎn),可能最好的方式就是制作一個(gè)視頻來(lái)闡述我的觀點(diǎn)。因此,我認(rèn)為娛樂(lè)和視頻模型可能有更廣泛的潛在應(yīng)用。
主持人:你們有嘗試過(guò)將這些技術(shù)應(yīng)用于數(shù)字化身份等方面嗎?
Tim:到目前為止,我們并沒(méi)有真正專注于其背后的核心技術(shù)。我認(rèn)為我們現(xiàn)在在Sora的發(fā)展進(jìn)度就像是新視覺(jué)模型的GPT-1。所以,我們現(xiàn)在的重點(diǎn)只是這項(xiàng)技術(shù)的基礎(chǔ)發(fā)展,可能比特定的下游應(yīng)用更重要。
主持人:你們是如何看待視頻模型中的安全性以及進(jìn)行深度偽造或惡搞之類的事情?
Aditya:這絕對(duì)是一個(gè)相當(dāng)復(fù)雜的話題。我認(rèn)為很多安全緩解措施可能都可以從DALL-E 3中移植過(guò)來(lái)。
我認(rèn)為這里要弄清楚的一個(gè)關(guān)鍵問(wèn)題是,部署這項(xiàng)技術(shù)的公司承擔(dān)多少責(zé)任?例如,社交媒體公司應(yīng)該做多少工作來(lái)告知用戶他們看到的內(nèi)容可能不是來(lái)自可信來(lái)源?用戶在使用這項(xiàng)技術(shù)創(chuàng)造某些東西時(shí)要承擔(dān)多少責(zé)任?
主持人:我想向在座的各位提出一個(gè)問(wèn)題,關(guān)于未來(lái)的產(chǎn)品路線圖、你的發(fā)展方向或你接下來(lái)要開發(fā)的一些功能,你最興奮的是什么?
Tim:確實(shí),這是一個(gè)好問(wèn)題。我對(duì)人們將如何利用我們的產(chǎn)品創(chuàng)造出新的東西感到非常興奮。我認(rèn)為有很多才華橫溢、富有創(chuàng)造力的人都有自己想要?jiǎng)?chuàng)造的東西。但有時(shí)要做到這一點(diǎn)真的很困難,因?yàn)樗麄兛赡苋狈Ρ匾馁Y源、工具或其他東西。這項(xiàng)技術(shù)有可能讓許多有才華橫溢、富有創(chuàng)造力的人創(chuàng)造出他們想要的東西。我真的很期待他們將要制作出什么了不起的東西,以及這項(xiàng)技術(shù)將如何幫助他們。
主持人:Bill,我想問(wèn)你一個(gè)問(wèn)題,這是否像你剛才提到的GPT-1一樣,我們還有很長(zhǎng)的路要走。這不是普通大眾有機(jī)會(huì)嘗試的東西。你能描述一下你想要解決的局限性或差距嗎?
Bill:是的,我認(rèn)為,在讓這項(xiàng)技術(shù)更廣泛地普及方面,有很多服務(wù)方面的考慮需要考慮。一個(gè)大問(wèn)題是如何讓這項(xiàng)技術(shù)足夠便宜,讓人們可以使用。
為了讓這項(xiàng)技術(shù)真正變得更加廣泛地普及,我們需要確保安全性,特別是在選舉年。我們對(duì)可能出現(xiàn)的錯(cuò)誤信息和任何相關(guān)風(fēng)險(xiǎn)非常謹(jǐn)慎。我們今天正在積極努力解決這些問(wèn)題。
主持人:你能談?wù)勀阍赟ora項(xiàng)目上的工作是如何影響更廣泛的研究路線圖的嗎?
Tim:我認(rèn)為,Sora的一個(gè)重要方面,是通過(guò)查看所有這些視覺(jué)數(shù)據(jù)來(lái)了解世界的知識(shí)。我們只是用視頻數(shù)據(jù)對(duì)它進(jìn)行了訓(xùn)練,它學(xué)會(huì)了3D,因?yàn)檫@些視頻中存在3D。它還學(xué)會(huì)了當(dāng)你咬一口漢堡包時(shí),會(huì)留下咬痕。所以它學(xué)到了很多關(guān)于我們這個(gè)世界的東西。當(dāng)我們與世界互動(dòng)時(shí),很多都是視覺(jué)的。我們一生中看到和學(xué)到的東西很多都是視覺(jué)信息。所以我們真的認(rèn)為,對(duì)于智能,對(duì)于引導(dǎo)更智能的人工智能模型,更好地理解世界,這對(duì)它們來(lái)說(shuō)非常重要,因?yàn)樗鼈冃枰羞@樣的基礎(chǔ)。有很多關(guān)于人們?nèi)绾位?dòng)、事情如何發(fā)生、過(guò)去的事件如何影響未來(lái)的事件的內(nèi)容,會(huì)催生比生成視頻更廣泛、更智能的人工智能模型。
主持人:這幾乎就像你同時(shí)發(fā)明了未來(lái)的視覺(jué)皮層和大腦推理部分的某些部分。
Tim:是的,這是一個(gè)很酷的比較,因?yàn)槿祟悡碛械暮芏嘀悄軐?shí)際上都與世界建模有關(guān)。當(dāng)我們思考如何做事時(shí),我們總是在腦海中演繹各種場(chǎng)景。我們會(huì)在夢(mèng)中在腦海中演繹各種場(chǎng)景。所以我們有一個(gè)世界模型,將Sora構(gòu)建為世界模型與人類擁有的大部分智能非常相似。
我認(rèn)為我們思考事物的方式是,幾乎就像人類的一個(gè)缺陷,就是它沒(méi)有那么高的保真度。
因此,當(dāng)你涉及到一組非常狹窄的物理學(xué)時(shí),我們實(shí)際上無(wú)法做出非常準(zhǔn)確的長(zhǎng)期預(yù)測(cè),這是我們可以通過(guò)其中一些系統(tǒng)進(jìn)行改進(jìn)的。
因此,我們對(duì)Sora的前景持樂(lè)觀態(tài)度,認(rèn)為它將取代人類的某些能力。從長(zhǎng)遠(yuǎn)來(lái)看,我們相信Sora有朝一日將超越人類的智慧,成為世界模型的代表。
隨著規(guī)模的擴(kuò)大,真正有效的方法仍然只是預(yù)測(cè)數(shù)據(jù)。
主持人:你認(rèn)為公眾對(duì)視頻模型或Sora有什么誤解嗎?或者你想讓他們知道什么?
Aditya:在內(nèi)部,我們一直在將Sora與GPT模型進(jìn)行比較。當(dāng)GPT-1和GPT-2問(wèn)世時(shí),人們開始越來(lái)越清楚地認(rèn)識(shí)到,只需擴(kuò)大這些模型的規(guī)模就能賦予它們驚人的能力。對(duì)我們來(lái)說(shuō),很明顯,將同樣的方法應(yīng)用于視頻模型也會(huì)帶來(lái)非常驚人的能力。
我們確實(shí)覺(jué)得這是GPT-1的時(shí)刻,這些模型很快就會(huì)變得更好。我們真的很興奮,我們認(rèn)為這將給創(chuàng)意世界帶來(lái)令人難以置信的好處,這對(duì)AGI的長(zhǎng)期影響是什么。
與此同時(shí),我們正在努力非常注意安全考慮,并構(gòu)建一個(gè)強(qiáng)大的堆棧,以確保社會(huì)真正從中獲益,同時(shí)減輕負(fù)面影響。
每日經(jīng)濟(jì)新聞綜合公開資料
封面圖片來(lái)源:每日經(jīng)濟(jì)新聞 資料圖
如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP