每日經(jīng)濟(jì)新聞

要聞

每經(jīng)網(wǎng)首頁(yè) > 要聞 > 正文

Sora炸裂出道！背后技術(shù)團(tuán)隊(duì)曝光，有多位華人，還有2022年畢業(yè)的本科生！上海交大天才少年緊急辟謠：離大譜了

每日經(jīng)濟(jì)新聞 2024-02-19 15:29:42

每經(jīng)記者文巧每經(jīng)編輯盧祥勇蘭素英

2月16日，OpenAI的AI視頻模型Sora炸裂出道，生成的視頻無(wú)論是清晰度、連貫性和時(shí)間上都令人驚艷，一時(shí)間，諸如“現(xiàn)實(shí)不存在了！”的評(píng)論在全網(wǎng)刷屏。

Sora是如何實(shí)現(xiàn)如此顛覆性的能力的呢？這就不得不提到其背后的兩項(xiàng)核心技術(shù)突破——Spacetime Patch（時(shí)空Patch）技術(shù)和Diffusion Transformer（DiT，或擴(kuò)散型Transformer）架構(gòu)。

CFF20LXzkOysDGVYFzFMDpeTpmUTD7Dribug0wfpRFvmBZoBGjOAzS76f0X0HGVzhpnvvGIkBFAuAtKPBoyI3og.png

Sora官網(wǎng)截圖

《每日經(jīng)濟(jì)新聞》記者查詢這兩項(xiàng)技術(shù)的原作論文發(fā)現(xiàn)，時(shí)空Patch的技術(shù)論文實(shí)際上是由谷歌DeepMind的科學(xué)家們于2023年7月發(fā)表的。DiT架構(gòu)技術(shù)論文的一作則是Sora團(tuán)隊(duì)領(lǐng)導(dǎo)者之一William Peebles，但戲劇性的是，這篇論文曾在2023年的計(jì)算機(jī)視覺(jué)會(huì)議上因“缺少創(chuàng)新性”而遭到拒絕，僅僅1年之后，就成為Sora的核心理論之一。

如今，Sora團(tuán)隊(duì)毫無(wú)疑問(wèn)已經(jīng)成為世界上最受關(guān)注的技術(shù)團(tuán)隊(duì)。記者查詢OpenAI官網(wǎng)發(fā)現(xiàn)，Sora團(tuán)隊(duì)由Peebles等3人領(lǐng)導(dǎo)，核心成員包括12人，其中有多位華人。值得注意的是，這支團(tuán)隊(duì)十分年輕，成立時(shí)間還尚未超過(guò)1年。

CFF20LXzkOysDGVYFzFMDpeTpmUTD7DraVPGyU3XLOlrmlgZjia9icbS18kkpjk8PWefaepPvNNZsCdV9do7TLTw.png

William (Bill) Peebles社交賬號(hào)截圖

核心突破一：

時(shí)空Patch，站在谷歌肩膀上

此前，OpenAI在X平臺(tái)上展示了Sora將靜態(tài)圖像轉(zhuǎn)換為動(dòng)態(tài)視頻的幾個(gè)案例，其逼真程度令人驚嘆。Sora是如何做到這一點(diǎn)的呢？這就不得不提到該AI視頻模型背后的兩項(xiàng)核心技術(shù)——DiT架構(gòu)和Spacetime Patch（時(shí)空Patch）。

據(jù)外媒報(bào)道，Spacetime Patch是Sora創(chuàng)新的核心之一，該項(xiàng)技術(shù)是建立在谷歌DeepMind對(duì)NaViT（原生分辨率視覺(jué)Transformer）和ViT（視覺(jué)Transformer）的早期研究基礎(chǔ)上。

Patch可以理解為Sora的基本單元，就像GPT-4的基本單元是Token。Token是文字的片段，Patch則是視頻的片段。GPT-4被訓(xùn)練以處理一串Token，并預(yù)測(cè)出下一個(gè)Token。Sora遵循相同的邏輯，可以處理一系列的Patch，并預(yù)測(cè)出序列中的下一個(gè)Patch。

Sora之所以能實(shí)現(xiàn)突破，在于其通過(guò)Spacetime Patch將視頻視為補(bǔ)丁序列，Sora保持了原始的寬高比和分辨率，類似于NaViT對(duì)圖像的處理。這對(duì)于捕捉視覺(jué)數(shù)據(jù)的真正本質(zhì)至關(guān)重要，使模型能夠從更準(zhǔn)確的表達(dá)中學(xué)習(xí)，從而賦予Sora近乎完美的準(zhǔn)確性。由此，Sora能夠有效地處理各種視覺(jué)數(shù)據(jù)，而無(wú)需調(diào)整大小或填充等預(yù)處理步驟。

記者注意到，OpenAI發(fā)布的Sora技術(shù)報(bào)告中透露了Sora的主要理論基礎(chǔ)，其中Patch的技術(shù)論文名為Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution。記者查詢預(yù)印本網(wǎng)站arxiv后發(fā)現(xiàn)，該篇研究論文是由谷歌DeepMind的科學(xué)家們于2023年7月發(fā)表的。

CFF20LXzkOysDGVYFzFMDpeTpmUTD7Drcldbib2P7dFobXoZ3l8OQmvwk93ysIaHEbRb7mCSH9nU2iaWltXZVNCQ.jpg

圖片來(lái)源：arxiv.org

CFF20LXzkOysDGVYFzFMDpeTpmUTD7DrvYzYlfBAShUIL5B8Fib23GlZctRrF4w3bCP6oCcw1V6XhXAEy18CtNg.jpg

圖片來(lái)源：Google Scholar

核心突破二：

擴(kuò)散型Transformer架構(gòu)

相關(guān)論文曾遭拒絕

除此之外，Sora的另一個(gè)重大突破是其所使用的架構(gòu)，傳統(tǒng)的文本到視頻模型（Runway、Stable Diffusion）通常是擴(kuò)散模型（Diffusion Model），文本模型例如GPT-4則是Transformer模型，而Sora則采用了DiT架構(gòu)，融合了前述兩者的特性。

據(jù)報(bào)道，傳統(tǒng)的擴(kuò)散模型的訓(xùn)練過(guò)程是通過(guò)多個(gè)步驟逐漸向圖片增加噪點(diǎn)，直到圖片變成完全無(wú)結(jié)構(gòu)的噪點(diǎn)圖片，然后在生成圖片時(shí)，逐步減少噪點(diǎn)，直到還原出一張清晰的圖片。Sora采用的架構(gòu)是通過(guò)Transformer的編碼器-解碼器架構(gòu)處理包含噪點(diǎn)的輸入圖像，并在每一步預(yù)測(cè)出更清晰的圖像。DiT架構(gòu)結(jié)合時(shí)空Patch，讓Sora能夠在更多的數(shù)據(jù)上進(jìn)行訓(xùn)練，輸出質(zhì)量也得到大幅提高。

OpenAI發(fā)布的Sora技術(shù)報(bào)告透露，Sora采用的DiT架構(gòu)是基于一篇名為Scalable diffusion models with transformers的學(xué)術(shù)論文。記者查詢預(yù)印本網(wǎng)站arxiv后發(fā)現(xiàn)，該篇原作論文是2022年12月由伯克利大學(xué)研究人員William (Bill) Peebles和紐約大學(xué)的一位研究人員謝賽寧共同發(fā)表。William (Bill) Peebles之后加入了OpenAI，領(lǐng)導(dǎo)Sora技術(shù)團(tuán)隊(duì)。

CFF20LXzkOysDGVYFzFMDpeTpmUTD7Drw8QAYdstwaTe9ykDmjJ2EzFmgZSZubmewQ3vYjvOicicrKf1aNUmeQ3A.jpg

圖片來(lái)源：arxiv.org

然而，戲劇化的是，Meta的AI科學(xué)家Yann LeCun在X平臺(tái)上透露，“這篇論文曾在2023年的計(jì)算機(jī)視覺(jué)會(huì)議（CVR2023）上因‘缺少創(chuàng)新性’而遭到拒絕，但在2023年國(guó)際計(jì)算機(jī)視覺(jué)會(huì)議（ICCV2023）上被接受發(fā)表，并且構(gòu)成了Sora的基礎(chǔ)?！?/span>

CFF20LXzkOysDGVYFzFMDpeTpmUTD7DrIGdPZ3c1KiaWpyWkfHFGpLSFc3xfmnbVFc60DWwjsgyTVic56pNxSiaSw.jpg

圖片來(lái)源：X平臺(tái)

據(jù)文匯報(bào)19日?qǐng)?bào)道，針對(duì)有自媒體稱Sora發(fā)明者之一是畢業(yè)于上海交大的天才少年謝賽寧，謝賽寧在朋友圈表示自己和Sora并沒(méi)有關(guān)系，但是他也談到，對(duì)于Sora這樣的復(fù)雜系統(tǒng)，人才第一，數(shù)據(jù)第二，算力第三，其他都沒(méi)有什么是不可替代的。

CFF20LXzkOysDGVYFzFMDpeTpmUTD7DrPJdZ5HWicSou92icOtAbpxFSZtCAYO8GicokuCg7dX5s8EWlsRAqqZlwg.jpg

謝賽寧朋友圈?圖片來(lái)源：文匯報(bào)

謝賽寧目前是紐約大學(xué)計(jì)算機(jī)科學(xué)助理教授，在此之前他是Facebook人工智能研究院研究科學(xué)家。

作為最懂DiT架構(gòu)的人之一，在Sora發(fā)布后，謝賽寧在X平臺(tái)上發(fā)表了關(guān)于Sora的一些猜想和技術(shù)解釋，并表示，“Sora確實(shí)令人驚嘆，它將徹底改變視頻生成領(lǐng)域?！?/span>

“當(dāng)Bill和我參與DiT項(xiàng)目時(shí)，我們并未專注于創(chuàng)新，而是將重點(diǎn)放在了兩個(gè)方面：簡(jiǎn)潔性和可擴(kuò)展性?！彼麑懙?。“簡(jiǎn)潔性代表著靈活性。關(guān)于標(biāo)準(zhǔn)的ViT，人們常忽視的一個(gè)亮點(diǎn)是，它讓模型在處理輸入數(shù)據(jù)時(shí)變得更加靈活。例如，在遮蔽自編碼器（MAE）中，ViT幫助我們只處理可見(jiàn)的區(qū)塊，忽略被遮蔽的部分。同樣，Sora可以通過(guò)在適當(dāng)大小的網(wǎng)格中排列隨機(jī)初始化的區(qū)塊來(lái)控制生成視頻的尺寸?！?/span>

CFF20LXzkOysDGVYFzFMDpeTpmUTD7DrfnnjUgDnoJSgrbKZ0zzIPD91qg4eGPyeJaZmFesnZWT2W9blJjTIvg.jpg

圖片來(lái)源：X平臺(tái)

不過(guò)，他認(rèn)為，關(guān)于Sora仍有兩個(gè)關(guān)鍵點(diǎn)尚未被提及。一是關(guān)于訓(xùn)練數(shù)據(jù)的來(lái)源和構(gòu)建，這意味著數(shù)據(jù)很可能是Sora成功的關(guān)鍵因素；二是關(guān)于（自回歸的）長(zhǎng)視頻生成，Sora的一大突破是能夠生成長(zhǎng)視頻，但OpenAI尚未揭示相關(guān)的技術(shù)細(xì)節(jié)。

年輕的開發(fā)團(tuán)隊(duì)：

應(yīng)屆博士帶隊(duì)，還有00后

隨著Sora的爆火，Sora團(tuán)隊(duì)也來(lái)到世界舞臺(tái)的中央，引發(fā)了持續(xù)的關(guān)注。記者查詢OpenAI官網(wǎng)發(fā)現(xiàn)，Sora團(tuán)隊(duì)由William Peebles等3人領(lǐng)導(dǎo)，核心成員包括12人。從團(tuán)隊(duì)領(lǐng)導(dǎo)和成員的畢業(yè)和入職時(shí)間來(lái)看，這支團(tuán)隊(duì)成立的時(shí)間較短，尚未超過(guò)1年。

CFF20LXzkOysDGVYFzFMDpeTpmUTD7DrlUkw4NlhKN1drKAlB1GiaDmGOiaFAa2wlkPdMpw8MLBiaBSJ82X4QQMyA.jpg

圖片來(lái)源：OpenAI官網(wǎng)

從年齡上來(lái)看，這支團(tuán)隊(duì)也非常年輕，兩位研究負(fù)責(zé)人都是在2023年才剛剛博士畢業(yè)。William (Bill) Peebles于去年5月畢業(yè)，其與謝賽寧合著的擴(kuò)散Transformer論文成為Sora的核心理論基礎(chǔ)。Tim Brooks于去年1月畢業(yè)，是DALL-E 3的作者之一，曾在谷歌和英偉達(dá)就職。

CFF20LXzkOysDGVYFzFMDpeTpmUTD7Dr1Z4BonG8pwSptQw5HB0RHicf1ib5pnXPO6PckEDbia3VFNgJDH6s390qA.jpg

圖片來(lái)源：William (Bill) Peebles個(gè)人主頁(yè)

團(tuán)隊(duì)成員中甚至還有00后。團(tuán)隊(duì)中的Will DePue生于2003年，2022年剛從密西根大學(xué)計(jì)算機(jī)系本科畢業(yè)，在今年1月加入Sora項(xiàng)目組。

CFF20LXzkOysDGVYFzFMDpeTpmUTD7DrxNucHibEP27bm5AAN7VIDNMfPKpEuKFeVExtibSiaqibC5L8kXcTbXgnsA.jpg

圖片來(lái)源：Will DePue個(gè)人主頁(yè)

此外，團(tuán)隊(duì)還有幾位華人。據(jù)媒體報(bào)道，Li Jing是DALL-E 3的共同一作，2014年本科畢業(yè)于北京大學(xué)物理系，2019年獲得MIT物理學(xué)博士學(xué)位，于2022年加入OpenAI。Ricky Wang則是今年1月剛剛從Meta跳槽到OpenAI。其余華人員工包括Yufei Guo等尚未有太多公開資料介紹。

記者|文巧?編輯|盧祥勇蘭素英?蓋源源校對(duì)|何小桃

｜每日經(jīng)濟(jì)新聞 ?nbdnews??原創(chuàng)文章｜

未經(jīng)許可禁止轉(zhuǎn)載、摘編、復(fù)制及鏡像等使用

如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

上一篇文章

中國(guó)銀行原董事長(zhǎng)劉連舸被提起公訴

返回每經(jīng)網(wǎng)首頁(yè)

下一篇文章

痛別！知名浙商凌晨離世

相關(guān)文章

熱文精選

點(diǎn)擊排行

歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

每經(jīng)經(jīng)濟(jì)新聞官方APP

關(guān)注我們
辟謠專區(qū)

加入我們
招聘專頁(yè)

Copyright ? 2025 每日經(jīng)濟(jì)新聞報(bào)社版權(quán)所有，未經(jīng)許可不得轉(zhuǎn)載使用，違者必究。

廣告熱線? 北京: 010-57613265，?上海: 021-61283008，?廣州: 020-84201861，?深圳: 0755-83520159，?成都: 028-86512112

網(wǎng)絡(luò)社會(huì)征信網(wǎng)

兒童色情信息舉報(bào)專區(qū)

成都市互聯(lián)網(wǎng)不良與違法信息舉報(bào)中心

四川省互聯(lián)網(wǎng)舉報(bào)中心

中國(guó)互聯(lián)網(wǎng)舉報(bào)中心

每日經(jīng)濟(jì)新聞互聯(lián)網(wǎng)不良與違法信息舉報(bào)中心

互聯(lián)網(wǎng)新聞信息服務(wù)許可證：51120190017 網(wǎng)站備案號(hào)：蜀ICP備19004508號(hào)-3 川公網(wǎng)安備 51019002002026號(hào)

新聞職業(yè)道德監(jiān)督熱線：400 889 0008 郵箱：zbb@nbd.com.cn

免费va国产高清不卡大片,笑看风云电视剧,亚洲黄色性爱在线观看,成人在线免费