每日經(jīng)濟新聞
頭條

每經(jīng)網(wǎng)首頁 > 頭條 > 正文

太炸了!OpenAI深夜發(fā)布,文字直接生成視頻!網(wǎng)友:我要失業(yè)了

每日經(jīng)濟新聞 2024-02-16 13:22:51

每經(jīng)編輯 何小桃 畢陸名    

2月16日凌晨,OpenAI再次扔出一枚深水炸彈,發(fā)布了首個文生視頻模型Sora。據(jù)介紹,Sora可以直接輸出長達60秒的視頻,并且包含高度細致的背景、復雜的多角度鏡頭,以及富有情感的多個角色。

目前官網(wǎng)上已經(jīng)更新了48個視頻demo,在這些demo中,Sora不僅能準確呈現(xiàn)細節(jié),還能理解物體在物理世界中的存在,并生成具有豐富情感的角色。該模型還可以根據(jù)提示、靜止圖像甚至填補現(xiàn)有視頻中的缺失幀來生成視頻。

CFF20LXzkOy2pib5WAibUemqf5C1vMWkDJ2hER0HxSibPQLgZruJYc1JQFXAEvOic5flx1cP540iaglS1gwHIeJY30A.jpg

例如一個Prompt(大語言模型中的提示詞)的描述是:在東京街頭,一位時髦的女士穿梭在充滿溫暖霓虹燈光和動感城市標志的街道上。

在Sora生成的視頻里,女士身著黑色皮衣、紅色裙子在霓虹街頭行走,不僅主體連貫穩(wěn)定,還有多鏡頭,包括從大街景慢慢切入到對女士的臉部表情的特寫,以及潮濕的街道地面反射霓虹燈的光影效果。

YicUhk5aAGtDoBER8LFLgvz8xKobGQbcJT9AzRVsz8VCFpicDelz9Dnsu9cE29dzAs7BP6eWBLwgyhDXCFxiaDTEw.jpg

電影預告片講述了30歲宇航員戴著紅色羊毛針織摩托車頭盔的冒險經(jīng)歷,藍天、鹽漠,電影風格,35毫米膠片拍攝,色彩鮮艷。

AI想象中的龍年春節(jié),紅旗招展人山人海。有緊跟舞龍隊伍抬頭好奇觀望的兒童,還有不少人掏出手機邊跟邊拍,海量人物角色各有各的行為。

YicUhk5aAGtDoBER8LFLgvz8xKobGQbcJxjPdpkV9ialUzaYFScLwpukbdKbDDmOXgf1CZibsVvhPQV1Nb1JhTicgg.jpg

豎屏超近景視角下,這只蜥蜴細節(jié)拉滿:

YicUhk5aAGtDoBER8LFLgvz8xKobGQbcJTp0r8icUC3IYQn5nxK2QiazpyST8IlP43mmqAmCzJ41cyD6Ee1tcBfSQ.jpg

網(wǎng)友直呼game over,工作要丟了:

YicUhk5aAGtDoBER8LFLgvz8xKobGQbcJkjianQ5nWT7Z3jhibTtaibzogj6Pl4CmdSJnXdCK2uZkMFqUn3icOOuQSA.png

甚至有人已經(jīng)開始“悼念”一整個行業(yè):

YicUhk5aAGtDoBER8LFLgvz8xKobGQbcJso0MvGxiaxjZ1ZS6NyicO8Y86iclgsV8M1D7uGRPCTAh3Czico20tvMxfg.png

還有網(wǎng)友表示,電影業(yè)要徹底顛覆了。

ViauSCjeRo3nJTnBV9Gu6jgaiaZzDIYdjq5618MwuF7ojsSgicHCILRRsEJ3alXCOuZZtJZVpHVibPWhWsDibN9HBpw.png

ViauSCjeRo3nJTnBV9Gu6jgaiaZzDIYdjqJX0gwvsYkiaRBWXQZsgUZqB1UcWJ28waSQSWjarFO7KV4eYVTeQq6dw.png

ViauSCjeRo3nJTnBV9Gu6jgaiaZzDIYdjq3WdDAY3qhzn1U3MHagjLoIwanibmGcyx3iccGrKpCjtKz7zIuccUrNtA.png

ViauSCjeRo3nJTnBV9Gu6jgaiaZzDIYdjqI7Wv1jspsxG4IibOPRJ9dVAomqbggYg5L749ia8D1y6bxT3g8g8lGOxw.png

ViauSCjeRo3nJTnBV9Gu6jgaiaZzDIYdjqiaeHPUwic4surg9sv7gt64NQblYfeBmtzvTVH63bPd4qxKMFI7dsAemA.png

一位YouTube博主Paddy Galloway發(fā)表了對Sora的感想,他表示內(nèi)容創(chuàng)作行業(yè)已經(jīng)永遠的改變了,并且毫不夸張。“我進入YouTube世界已經(jīng)15年時間,但OpenAI剛剛的展示讓我無言…動畫師/3D藝術家們有麻煩了,素材網(wǎng)站將變得無關緊要,任何人都可以無壁壘獲得難以置信的產(chǎn)品,內(nèi)容背后的‘想法’和故事將變得更加重要。”

對于Sora當前存在的弱點,OpenAI也不避諱,指出它可能難以準確模擬復雜場景的物理原理,并且可能無法理解因果關系。

例如“五只灰狼幼崽在一條偏僻的碎石路上互相嬉戲、追逐”,狼的數(shù)量會變化,一些憑空出現(xiàn)或消失。

YicUhk5aAGtDoBER8LFLgvz8xKobGQbcJLwBfa861iazIh33UEgb36fyAH3BMsxZNC1yfR7HcrUmiaWhKXzV9XDaA.jpg

該模型還可能混淆提示的空間細節(jié),例如混淆左右,并且可能難以精確描述隨著時間推移發(fā)生的事件,例如遵循特定的相機軌跡。

如提示詞“籃球穿過籃筐然后爆炸”中,籃球沒有正確被籃筐阻擋。

YicUhk5aAGtDoBER8LFLgvz8xKobGQbcJH36n3REhfRwIZkDas4ZO2s6rX43OYIu0icEJwTIPZ42WRYjZu1O2HQg.jpg

OpenAI表示,他們正在教AI理解和模擬運動中的物理世界,目標是訓練模型來幫助人們解決需要現(xiàn)實世界交互的問題。

隨后OpenAI解釋了Sora的工作原理,Sora是一個擴散模型,它從類似于靜態(tài)噪聲的視頻開始,通過多個步驟逐漸去除噪聲,視頻也從最初的隨機像素轉化為清晰的圖像場景。Sora使用了Transformer架構,有極強的擴展性。

視頻和圖像是被稱為“補丁”的較小數(shù)據(jù)單位集合,每個“補丁”都類似于GPT中的一個標記(Token),通過統(tǒng)一的數(shù)據(jù)表達方式,可以在更廣泛的視覺數(shù)據(jù)上訓練和擴散變化,包括不同的時間、分辨率和縱橫比。

Sora是基于過去對DALL·E和GPT的研究基礎構建,利用DALL·E 3的重述提示詞技術,為視覺模型訓練數(shù)據(jù)生成高描述性的標注,因此模型能更好的遵循文本指令。

如今,Sora正面向部分成員開放,以評估關鍵領域的潛在危害或風險。同時,OpenAI也邀請了一批視覺藝術家、設計師和電影制作人加入,期望獲得寶貴反饋,以推動模型進步,更好地助力創(chuàng)意工作者。OpenAI提前分享研究進展,旨在與OpenAI以外的人士合作并獲取反饋,讓公眾了解即將到來的AI技術新篇章。

編輯|何小桃 畢陸名 蓋源源

校對|劉思琦

CFF20LXzkOyYmal29zn37N5Bg2NQ4tyN4ylvMFyM3VmF4x90Uj4cDmoEphibia4RN55ibIXmqU1Od9w2Q5nhA08lA.png

每日經(jīng)濟新聞綜合界面新聞、量子位、OpenAI官網(wǎng)等

如需轉載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。

讀者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。

歡迎關注每日經(jīng)濟新聞APP

每經(jīng)經(jīng)濟新聞官方APP

0

0

免费va国产高清不卡大片,笑看风云电视剧,亚洲黄色性爱在线观看,成人 在线 免费