每日經(jīng)濟(jì)新聞

要聞

每經(jīng)網(wǎng)首頁 > 要聞 > 正文

“人類思考方式有缺陷”！Sora三位大佬最新訪談：Sora仍處在GPT-1階段，但會(huì)超越人類智慧

每日經(jīng)濟(jì)新聞 2024-04-28 17:58:03

每經(jīng)編輯黃勝

2月16日，OpenAI推出新的AI大模型Sora，該文生視頻大模型可通過快速文本提示創(chuàng)建“逼真”和“富有想象力”的60秒視頻。

一個(gè)月之后，第一波試用者對(duì)使用情況進(jìn)行了反饋。

4月份，OpenAI官方賬號(hào)發(fā)布的一支由Sora制作的MV（Music Video）——《Worldweight》，引發(fā)了不少網(wǎng)友們的圍觀。

目前，Sora已經(jīng)成為視頻大模型的標(biāo)桿。有人說，在視頻生成領(lǐng)域，只有兩種模型：OpenAI Sora模型，以及其他不是Sora的模型。

然而，Sora何時(shí)才能開放給公眾使用，OpenAI方面始終沒有給出具體的時(shí)間表。

內(nèi)測(cè)中的Sora表現(xiàn)優(yōu)異，但OpenAI卻遲遲沒有正式對(duì)外開放Sora，這背后可能會(huì)有成本原因的考慮。知名科技作家Robert Scoble在社交平臺(tái)X上就表示，普通用戶僅僅每月支付20美元并不能涵蓋生成人工智能視頻的成本。

近日，NoPriors播客發(fā)布了對(duì)Sora項(xiàng)目團(tuán)隊(duì)三位負(fù)責(zé)人Tim Brooks、William Peebles(昵稱Bill)和Aditya Ramesh的專訪。

Tim Brooks是DALL-E 3的主要作者之一。他本科就讀于卡內(nèi)基梅隆大學(xué)，主修邏輯與計(jì)算，輔修計(jì)算機(jī)科學(xué)。去年1月，他順利從加州大學(xué)伯克利分校獲得博士學(xué)位后，立即加入OpenAI，參與了DALL-E 3和Sora的開發(fā)工作。

Bill本科就讀于麻省理工學(xué)院，主修計(jì)算機(jī)科學(xué)。在校期間，他參與了GAN和text2video的研究，還在英偉達(dá)實(shí)習(xí)，專注于深度學(xué)習(xí)、自動(dòng)駕駛和計(jì)算機(jī)視覺。去年5月，Bill從伯克利畢業(yè)后也加入了OpenAI。

Aditya Ramesh在OpenAI已經(jīng)是個(gè)"老人"。作為DALL-E的創(chuàng)造者，他主導(dǎo)了三代DALL-E的研究工作。

在訪談中，這三位Sora負(fù)責(zé)人對(duì)外界關(guān)心的有關(guān)Sora的諸多方面問題給出了回答。

核心內(nèi)容：

1，我們目前還沒有制定產(chǎn)品的即時(shí)計(jì)劃，甚至沒有制定產(chǎn)品的時(shí)間表。

2，現(xiàn)階段的Sora，就像是新視覺模型的GPT-1。

3，（關(guān)于偽造和安全）我認(rèn)為這里要弄清楚的一個(gè)關(guān)鍵問題是，部署這項(xiàng)技術(shù)的公司承擔(dān)多少責(zé)任？例如，社交媒體公司應(yīng)該做多少工作來告知用戶他們看到的內(nèi)容可能不是來自可信來源？用戶在使用這項(xiàng)技術(shù)創(chuàng)造某些東西時(shí)要承擔(dān)多少責(zé)任？

4，這項(xiàng)技術(shù)有可能讓許多有才華橫溢、富有創(chuàng)造力的人創(chuàng)造出他們想要的東西。

5，在讓這項(xiàng)技術(shù)更廣泛地普及方面，有很多服務(wù)方面的考慮需要考慮。一個(gè)大問題是如何讓這項(xiàng)技術(shù)足夠便宜，讓人們可以使用。

6，我們思考事物的方式是有一個(gè)缺陷，就是沒有那么高的保真度。因此，我們對(duì)Sora的前景持樂觀態(tài)度，認(rèn)為它將取代人類的某些能力。從長遠(yuǎn)來看，我們相信Sora有朝一日將超越人類的智慧，成為世界模型的代表。

以下為訪談節(jié)選：

主持人：很好?；蛟S我們可以從 OpenAI 的使命開始談起，那就是實(shí)現(xiàn) AGI，也就是更強(qiáng)大的人工智能。那么，文本轉(zhuǎn)視頻的技術(shù)是否符合這個(gè)使命呢？你們是如何開始研究這個(gè)領(lǐng)域的呢？

Bill：是的，我們堅(jiān)信像 Sora 這樣的模型確實(shí)是實(shí)現(xiàn) AGI 的關(guān)鍵步驟。

展望未來，為了生成真正逼真的視頻，你必須學(xué)習(xí)一些關(guān)于人們?nèi)绾喂ぷ鳌⑷绾闻c他人互動(dòng)、最終如何思考的模型。這不僅包括人，還有動(dòng)物，以及任何你想要模擬的物體。因此，展望未來，隨著我們繼續(xù)擴(kuò)大像Sora 這樣的模型，我們將能夠構(gòu)建這些類似世界模擬器的東西。隨著我們未來擴(kuò)大Sora的規(guī)模，AGI就會(huì)實(shí)現(xiàn)。

主持人：在更廣泛地使用 Sora 之前，您需要做什么工作？Tim，你愿意談?wù)勥@個(gè)問題嗎？

Tim：是的，我們目前還沒有制定產(chǎn)品的即時(shí)計(jì)劃，甚至沒有制定產(chǎn)品的時(shí)間表。然而，我們將Sora的訪問權(quán)限提供給一小部分藝術(shù)家以及紅隊(duì)成員，以開始了解Sora將產(chǎn)生的影響。我們從藝術(shù)家那里得到了反饋，關(guān)于如何讓它成為對(duì)他們最有用的工具，并從“紅隊(duì)成員”那里得到了反饋，關(guān)于如何讓它安全，如何將它介紹給公眾。

主持人：我知道，當(dāng)它推出時(shí)，很多人都被一些圖像所震撼。你會(huì)看到一只貓?jiān)谒刂械挠白踊蛑T如此類的東西。但我只是好奇，隨著越來越多的人開始使用它，你看到了什么。

Tim：是的，看到藝術(shù)家們用這個(gè)模型生成的成果，真的很棒。

作為一個(gè)喜歡創(chuàng)造內(nèi)容但又沒有足夠技能的人，使用這個(gè)模型并激發(fā)出一堆想法，并得到一些非常引人注目的東西是非常容易的。比如，在迭代提示方面，實(shí)際生成它所花費(fèi)的時(shí)間真的不到一個(gè)小時(shí)。我非常高興地看到藝術(shù)家們也熱衷于使用這些模型，并從中創(chuàng)作出精彩的作品。

主持人：這些模型在短片或其他領(lǐng)域的廣泛應(yīng)用的時(shí)間表是什么？我們何時(shí)會(huì)開始看到來自Sora或其他模型的實(shí)際內(nèi)容，并成為更廣泛媒體類型的一部分？

Tim：我沒有確切的時(shí)間表預(yù)測(cè)，但我對(duì)此非常感興趣，那就是除了傳統(tǒng)電影之外，人們可能會(huì)將其用于什么。我認(rèn)為，在接下來的幾年里，我們會(huì)看到人們開始制作越來越多的電影，但我認(rèn)為人們也會(huì)找到使用這些模型的全新方式，這些方式與我們習(xí)慣的當(dāng)前媒體完全不同。

主持人：Aditya在OpenAI工作了大約五年，因此你見證了許多模型和公司的發(fā)展。當(dāng)你考慮這個(gè)世界模擬模型的功能時(shí)，你認(rèn)為它會(huì)成為模擬的物理引擎嗎？我對(duì)未來可能出現(xiàn)的其他一些前瞻性應(yīng)用非常好奇。

Aditya：是的，我完全認(rèn)為在視頻模型中進(jìn)行模擬是我們將來能夠做到的事情。

Bill：你可以從視頻中學(xué)到很多東西。OpenAI等公司過去在這方面投入了大量資金，比如語言，比如手臂和關(guān)節(jié)如何在空間中移動(dòng)的細(xì)節(jié)，它們是如何以物理上準(zhǔn)確的方式與地面接觸的。所以，你只需通過對(duì)原始視頻的訓(xùn)練就能學(xué)到很多關(guān)于物理世界的知識(shí)，我們真的相信，這對(duì)于未來的物理體現(xiàn)等事情至關(guān)重要。

主持人：再談?wù)勀Ｐ捅旧?。Tim，你能描述一下什么是擴(kuò)散Transformer嗎？

Tim：擴(kuò)散是一種數(shù)據(jù)生成過程。這個(gè)過程從噪音開始，通過反復(fù)多次去除噪音，直到最終去除了足夠多的噪音，只生成一個(gè)樣本。這就是我們生成視頻的過程。

從架構(gòu)角度來看，我們的模型必須是可擴(kuò)展的，它們需要能夠從大量數(shù)據(jù)中學(xué)習(xí)，并理解視頻中那些非常復(fù)雜且具有挑戰(zhàn)性的關(guān)系，這一點(diǎn)至關(guān)重要。因此，我們采用了一種類似于GPT模型的架構(gòu)，稱為Transformer。因此，將這兩個(gè)概念與Transformer架構(gòu)結(jié)合起來的擴(kuò)散Transformer使我們能夠擴(kuò)展這些模型。隨著我們投入更多的計(jì)算和更多的數(shù)據(jù)來訓(xùn)練它們，它們的性能會(huì)越來越好。

主持人：Sora最引人注目的一點(diǎn)就是它的視覺美感。我對(duì)此感到好奇，你是如何調(diào)整或制作這種美感的？

Bill：實(shí)際上，我們并沒有為Sora投入大量精力。我認(rèn)為Sora的語言理解絕對(duì)允許用戶以一種比其他模型更難的方式來操縱它。你可以提供很多提示和視覺提示，這些提示將引導(dǎo)模型朝著你想要的代數(shù)類型發(fā)展。

我認(rèn)為展望未來，模型會(huì)賦予人們某種力量，讓他們理解你的個(gè)人審美感，這將是很多人期待的事情。

我們接觸的許多藝術(shù)家和創(chuàng)作者都希望將他們的全部資產(chǎn)上傳到模型中，這樣在寫標(biāo)題時(shí)就可以借鑒大量的作品，并讓模型理解他們?cè)O(shè)計(jì)公司幾十年來積累的術(shù)語等等。因此我認(rèn)為個(gè)性化以及它如何與美學(xué)結(jié)合在一起將會(huì)成為以后值得探索的一件很酷的事情。

主持人：我認(rèn)為Tim所說的就像超越傳統(tǒng)娛樂的新應(yīng)用。但這在計(jì)算上很昂貴，很難，而且不太可能。但我會(huì)講述一個(gè)故事，并讓神奇的視覺效果實(shí)時(shí)發(fā)生。我們會(huì)得到它嗎？

Tim：我認(rèn)為我們正朝著那個(gè)方向前進(jìn)。還有不同的娛樂模式、不同的教育模式和交流模式。娛樂是其中很重要的一部分，但我認(rèn)為一旦真正理解了我們的世界，就會(huì)有很多潛在的應(yīng)用。我們的世界和我們體驗(yàn)世界的方式很大程度上都是視覺化的。這些模型真正酷的地方在于，它們開始更好地理解我們的世界、我們的生活和我們所做的事情。我們可以利用這些技術(shù)來娛樂自己，也可以用它們來教育我們。有時(shí)候，當(dāng)我想學(xué)習(xí)一些東西時(shí)，最有效的方法就是找一個(gè)定制的教育視頻來解釋。同樣，如果我想和某人交流一些觀點(diǎn)，可能最好的方式就是制作一個(gè)視頻來闡述我的觀點(diǎn)。因此，我認(rèn)為娛樂和視頻模型可能有更廣泛的潛在應(yīng)用。

主持人：你們有嘗試過將這些技術(shù)應(yīng)用于數(shù)字化身份等方面嗎？

Tim：到目前為止，我們并沒有真正專注于其背后的核心技術(shù)。我認(rèn)為我們現(xiàn)在在Sora的發(fā)展進(jìn)度就像是新視覺模型的GPT-1。所以，我們現(xiàn)在的重點(diǎn)只是這項(xiàng)技術(shù)的基礎(chǔ)發(fā)展，可能比特定的下游應(yīng)用更重要。

主持人：你們是如何看待視頻模型中的安全性以及進(jìn)行深度偽造或惡搞之類的事情？

Aditya：這絕對(duì)是一個(gè)相當(dāng)復(fù)雜的話題。我認(rèn)為很多安全緩解措施可能都可以從DALL-E 3中移植過來。

我認(rèn)為這里要弄清楚的一個(gè)關(guān)鍵問題是，部署這項(xiàng)技術(shù)的公司承擔(dān)多少責(zé)任？例如，社交媒體公司應(yīng)該做多少工作來告知用戶他們看到的內(nèi)容可能不是來自可信來源？用戶在使用這項(xiàng)技術(shù)創(chuàng)造某些東西時(shí)要承擔(dān)多少責(zé)任？

主持人：我想向在座的各位提出一個(gè)問題，關(guān)于未來的產(chǎn)品路線圖、你的發(fā)展方向或你接下來要開發(fā)的一些功能，你最興奮的是什么？

Tim：確實(shí)，這是一個(gè)好問題。我對(duì)人們將如何利用我們的產(chǎn)品創(chuàng)造出新的東西感到非常興奮。我認(rèn)為有很多才華橫溢、富有創(chuàng)造力的人都有自己想要?jiǎng)?chuàng)造的東西。但有時(shí)要做到這一點(diǎn)真的很困難，因?yàn)樗麄兛赡苋狈Ρ匾馁Y源、工具或其他東西。這項(xiàng)技術(shù)有可能讓許多有才華橫溢、富有創(chuàng)造力的人創(chuàng)造出他們想要的東西。我真的很期待他們將要制作出什么了不起的東西，以及這項(xiàng)技術(shù)將如何幫助他們。

主持人：Bill，我想問你一個(gè)問題，這是否像你剛才提到的GPT-1一樣，我們還有很長的路要走。這不是普通大眾有機(jī)會(huì)嘗試的東西。你能描述一下你想要解決的局限性或差距嗎？

Bill：是的，我認(rèn)為，在讓這項(xiàng)技術(shù)更廣泛地普及方面，有很多服務(wù)方面的考慮需要考慮。一個(gè)大問題是如何讓這項(xiàng)技術(shù)足夠便宜，讓人們可以使用。

為了讓這項(xiàng)技術(shù)真正變得更加廣泛地普及，我們需要確保安全性，特別是在選舉年。我們對(duì)可能出現(xiàn)的錯(cuò)誤信息和任何相關(guān)風(fēng)險(xiǎn)非常謹(jǐn)慎。我們今天正在積極努力解決這些問題。

主持人：你能談?wù)勀阍赟ora項(xiàng)目上的工作是如何影響更廣泛的研究路線圖的嗎？

Tim：我認(rèn)為，Sora的一個(gè)重要方面，是通過查看所有這些視覺數(shù)據(jù)來了解世界的知識(shí)。我們只是用視頻數(shù)據(jù)對(duì)它進(jìn)行了訓(xùn)練，它學(xué)會(huì)了3D，因?yàn)檫@些視頻中存在3D。它還學(xué)會(huì)了當(dāng)你咬一口漢堡包時(shí)，會(huì)留下咬痕。所以它學(xué)到了很多關(guān)于我們這個(gè)世界的東西。當(dāng)我們與世界互動(dòng)時(shí)，很多都是視覺的。我們一生中看到和學(xué)到的東西很多都是視覺信息。所以我們真的認(rèn)為，對(duì)于智能，對(duì)于引導(dǎo)更智能的人工智能模型，更好地理解世界，這對(duì)它們來說非常重要，因?yàn)樗鼈冃枰羞@樣的基礎(chǔ)。有很多關(guān)于人們?nèi)绾位?dòng)、事情如何發(fā)生、過去的事件如何影響未來的事件的內(nèi)容，會(huì)催生比生成視頻更廣泛、更智能的人工智能模型。

主持人：這幾乎就像你同時(shí)發(fā)明了未來的視覺皮層和大腦推理部分的某些部分。

Tim：是的，這是一個(gè)很酷的比較，因?yàn)槿祟悡碛械暮芏嘀悄軐?shí)際上都與世界建模有關(guān)。當(dāng)我們思考如何做事時(shí)，我們總是在腦海中演繹各種場(chǎng)景。我們會(huì)在夢(mèng)中在腦海中演繹各種場(chǎng)景。所以我們有一個(gè)世界模型，將Sora構(gòu)建為世界模型與人類擁有的大部分智能非常相似。

我認(rèn)為我們思考事物的方式是，幾乎就像人類的一個(gè)缺陷，就是它沒有那么高的保真度。

因此，當(dāng)你涉及到一組非常狹窄的物理學(xué)時(shí)，我們實(shí)際上無法做出非常準(zhǔn)確的長期預(yù)測(cè)，這是我們可以通過其中一些系統(tǒng)進(jìn)行改進(jìn)的。

因此，我們對(duì)Sora的前景持樂觀態(tài)度，認(rèn)為它將取代人類的某些能力。從長遠(yuǎn)來看，我們相信Sora有朝一日將超越人類的智慧，成為世界模型的代表。

隨著規(guī)模的擴(kuò)大，真正有效的方法仍然只是預(yù)測(cè)數(shù)據(jù)。

主持人：你認(rèn)為公眾對(duì)視頻模型或Sora有什么誤解嗎？或者你想讓他們知道什么？

Aditya：在內(nèi)部，我們一直在將Sora與GPT模型進(jìn)行比較。當(dāng)GPT-1和GPT-2問世時(shí)，人們開始越來越清楚地認(rèn)識(shí)到，只需擴(kuò)大這些模型的規(guī)模就能賦予它們驚人的能力。對(duì)我們來說，很明顯，將同樣的方法應(yīng)用于視頻模型也會(huì)帶來非常驚人的能力。

我們確實(shí)覺得這是GPT-1的時(shí)刻，這些模型很快就會(huì)變得更好。我們真的很興奮，我們認(rèn)為這將給創(chuàng)意世界帶來令人難以置信的好處，這對(duì)AGI的長期影響是什么。

與此同時(shí)，我們正在努力非常注意安全考慮，并構(gòu)建一個(gè)強(qiáng)大的堆棧，以確保社會(huì)真正從中獲益，同時(shí)減輕負(fù)面影響。

每日經(jīng)濟(jì)新聞綜合公開資料

封面圖片來源：每日經(jīng)濟(jì)新聞資料圖

如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

模型 Sora GPT

上一篇文章

深南電路：接受開域資本調(diào)研

返回每經(jīng)網(wǎng)首頁

下一篇文章

德邦證券給予山西汾酒增持評(píng)級(jí)

相關(guān)文章

熱文精選

點(diǎn)擊排行

歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

每經(jīng)經(jīng)濟(jì)新聞官方APP

關(guān)注我們
辟謠專區(qū)

加入我們
招聘專頁

Copyright ? 2025 每日經(jīng)濟(jì)新聞報(bào)社版權(quán)所有，未經(jīng)許可不得轉(zhuǎn)載使用，違者必究。

廣告熱線? 北京: 010-57613265，?上海: 021-61283008，?廣州: 020-84201861，?深圳: 0755-83520159，?成都: 028-86512112

網(wǎng)絡(luò)社會(huì)征信網(wǎng)

兒童色情信息舉報(bào)專區(qū)

成都市互聯(lián)網(wǎng)不良與違法信息舉報(bào)中心

四川省互聯(lián)網(wǎng)舉報(bào)中心

中國互聯(lián)網(wǎng)舉報(bào)中心

每日經(jīng)濟(jì)新聞互聯(lián)網(wǎng)不良與違法信息舉報(bào)中心

互聯(lián)網(wǎng)新聞信息服務(wù)許可證：51120190017 網(wǎng)站備案號(hào)：蜀ICP備19004508號(hào)-3 川公網(wǎng)安備 51019002002026號(hào)

新聞職業(yè)道德監(jiān)督熱線：400 889 0008 郵箱：zbb@nbd.com.cn

免费va国产高清不卡大片,笑看风云电视剧,亚洲黄色性爱在线观看,成人在线免费