“AI教母”李飛飛：Sora仍是二維圖像，只有三維空間智能才能實(shí)現(xiàn)AGI

鈦媒體 2024-08-03 16:08:17

8月2日消息，日前斯坦福大學(xué)舉辦的Asian American Scholar Forum論壇的一場(chǎng)閉門會(huì)上，有著“AI教母”之稱的斯坦福大學(xué)教授李飛飛對(duì)鈦媒體App獨(dú)家表示，盡管美國(guó)OpenAI公司的Sora模型可以文生視頻，但就本質(zhì)而言，它仍屬平面二維模型，沒(méi)有三維立體理解能力，只有“空間智能”才是AGI未來(lái)方向。

李飛飛是在針對(duì)鈦媒體創(chuàng)始人趙何娟提出的關(guān)于“空間智能”模型和大語(yǔ)言模型關(guān)系的問(wèn)題討論時(shí)，做出上述回應(yīng)。她進(jìn)一步解釋稱，現(xiàn)在的多數(shù)模型如GPT4o和Gemini 1.5，都依然還是語(yǔ)言類模型，即輸入語(yǔ)言，輸出語(yǔ)言，雖然也有多模態(tài)模型，但仍局限于語(yǔ)言，即便有視頻，也是基于二維的平面圖像。但未來(lái)要實(shí)現(xiàn)AGI的關(guān)鍵一環(huán)是“空間智能“，需要三維視覺(jué)模型。

她以Sora展示的“日本女性走過(guò)霓虹閃爍東京街頭”的AI視頻做例子。

“如果你希望算法換個(gè)角度，來(lái)展現(xiàn)這個(gè)女子走過(guò)街頭的視頻，比如把攝像機(jī)放在女子背后，Sora無(wú)法做到。因?yàn)檫@個(gè)模型對(duì)于三維世界并沒(méi)有真正的深刻理解。而人類可以在腦海中想象女子背后的情景。”李飛飛表示，“人類可以理解在復(fù)雜的環(huán)境下如何活動(dòng)。我們知道如何抓取，如何控制，如何造工具，如何建造城市。根本而言，空間智能是幾何形狀，是物體間的關(guān)系，是三維空間?？臻g智能是關(guān)于釋放在三維空間生成（視覺(jué)地圖）并推理和規(guī)劃行動(dòng)的能力。其應(yīng)用是廣泛的，比如用于AR和VR，用于機(jī)器人，App的設(shè)計(jì)也需要空間智能。”

李飛飛向鈦媒體App強(qiáng)調(diào)，“自然進(jìn)化使動(dòng)物理解三維世界，在三維空間生活、預(yù)判并互動(dòng)。這種能力已有5.4億年的漫長(zhǎng)歷史。當(dāng)三葉蟲第一次在水中看到光，它必須在三維世界中‘導(dǎo)航’。如果不能在三維世界中‘導(dǎo)航’，它將很快成為其他動(dòng)物的大餐。隨著進(jìn)化的推移，動(dòng)物的空間智能能力加強(qiáng)。我們理解形狀，我們理解深度。”

現(xiàn)年48歲的李飛飛，是著名計(jì)算機(jī)科學(xué)家、美國(guó)國(guó)家工程院院士、美國(guó)國(guó)家醫(yī)學(xué)院院士，并且在美國(guó)斯坦福大學(xué)以人為本的AI研究所擔(dān)任負(fù)責(zé)人。她于2009年領(lǐng)導(dǎo)研發(fā)的ImageNet圖片數(shù)據(jù)庫(kù)和視覺(jué)識(shí)別大賽，對(duì)海量圖片進(jìn)行精準(zhǔn)標(biāo)注和分類，推動(dòng)了計(jì)算機(jī)視覺(jué)的識(shí)別能力的進(jìn)步，也是促成AI突飛猛進(jìn)發(fā)展的關(guān)鍵因素之一。去年，她公布的VoxPoser成為具身智能（Embodied AI）發(fā)展中關(guān)鍵技術(shù)方向。

今年7月，李飛飛創(chuàng)辦的AI公司W(wǎng)orld Labs宣布完成兩輪融資，投資方包括a16z（Andreessen Horowitz）等，公司最新估值已達(dá)10億美元（約合72.6億元人民幣）。

7月底這場(chǎng)亞裔美國(guó)科學(xué)家論壇閉門會(huì)上，李飛飛的演講也讓更多人了解到Word Labs和她的“空間智能”發(fā)展理念到底是什么，即要讓AI真正“從看到，到做到”。

視覺(jué)中國(guó)（不可商用）-科技、科研、應(yīng)用-AI字母圖、人工智能技術(shù)創(chuàng)新-VCG41N1472123004.jpg

圖片來(lái)源：視覺(jué)中國(guó)-VCG41N1472123004

如何實(shí)現(xiàn)從“看到”到“做到”

所謂“空間智能”，是指人們或機(jī)器在三維空間中的感知、理解和交互能力。

這一概念最早由美國(guó)心理學(xué)家霍華德·加德納（Howard Gardner）在多元智能理論中提出，讓在大腦中形成一個(gè)外部空間世界的模式，并能夠運(yùn)用和操作。實(shí)際上，空間智能讓人有能力以三度空間的方式來(lái)思考，使人知覺(jué)到外在和內(nèi)在的影像，也能重現(xiàn)、轉(zhuǎn)變或修飾影像，從而能夠在空間中從容地游走，隨心所欲地操弄物件的位置，以產(chǎn)生或解讀圖形的訊息。

從廣義上看，空間智能不僅包括對(duì)空間方位的感知能力，還包括視覺(jué)辨別能力和形象思維能力。而對(duì)于機(jī)器而言，空間智能則是指其在三維空間中的視覺(jué)數(shù)據(jù)處理能力，能夠精準(zhǔn)做出預(yù)測(cè)，并基于這些預(yù)測(cè)采取行動(dòng)。這種能力使得機(jī)器能夠像人類一樣在復(fù)雜的三維世界中導(dǎo)航、操作和決策，從而超越傳統(tǒng)二維視覺(jué)的局限。

今年4月舉行的TED演講上，李飛飛坦言，視覺(jué)能力引發(fā)了寒武紀(jì)大爆發(fā)，神經(jīng)系統(tǒng)的進(jìn)化帶來(lái)了智能。“我們想要的不僅僅是能看會(huì)說(shuō)的AI，我們想要的是能做的AI。”

在李飛飛看來(lái)，空間智能是“解決AI技術(shù)難題的關(guān)鍵法寶”。

7月底這場(chǎng)閉門活動(dòng)上，李飛飛首先回顧了自10年前開始的現(xiàn)代AI三大驅(qū)動(dòng)力：算法構(gòu)成的“神經(jīng)網(wǎng)絡(luò)”，即“深度學(xué)習(xí)”；現(xiàn)代芯片，主要是英偉達(dá)GPU芯片；以及大數(shù)據(jù)。

自2009年以來(lái)，計(jì)算機(jī)視覺(jué)領(lǐng)域進(jìn)入爆炸式進(jìn)展。機(jī)器可以迅速認(rèn)出物體，和人類的表現(xiàn)不相上下。但這只是冰山一角。計(jì)算機(jī)數(shù)視覺(jué)不僅可以識(shí)別靜止的物體，跟蹤移動(dòng)的物體，而且可以將物體分成不同部分，甚至可以理解物體之間的關(guān)系。因此，基于圖片大數(shù)據(jù)，計(jì)算機(jī)視覺(jué)領(lǐng)域突飛猛進(jìn)。

李飛飛清晰地記得，大約10年前，她的學(xué)生Andrej Karpathy參與建立圖釋算法研究。他們給計(jì)算機(jī)展示一張圖片，接著通過(guò)神經(jīng)網(wǎng)絡(luò)，計(jì)算機(jī)可以輸出自然語(yǔ)言，比如說(shuō)：“這是一只貓咪躺在床上。”

“我記得告訴Andrej，讓我們反轉(zhuǎn)一下。比如給一個(gè)句子，讓計(jì)算機(jī)給出一張圖片。我們都笑了，覺(jué)得可能永遠(yuǎn)不會(huì)實(shí)現(xiàn)，或者將在很遠(yuǎn)的未來(lái)實(shí)現(xiàn)，”李飛飛回憶說(shuō)。

過(guò)去兩年，生成式AI技術(shù)迅猛發(fā)展。特別是幾個(gè)月前，OpenAI發(fā)布了視頻生成算法Sora。她展示了她的學(xué)生們?cè)诠雀柩邪l(fā)的類似產(chǎn)品，質(zhì)量非常好。這個(gè)產(chǎn)品在Sora發(fā)布以前幾個(gè)月就存在了，而且所用的GPU（圖形處理器）規(guī)模比Sora少很多。問(wèn)題是，接下來(lái)AI將走向何方？

“多年來(lái)，我一直表示，‘看到’即為‘理解世界’。但是我愿意將這個(gè)概念推進(jìn)一步，‘看到’不僅僅是為了理解，而是為了做到。自然界創(chuàng)造了像我們這樣有感知能力的動(dòng)物，但實(shí)際上從4.5億年前，就存在這樣的動(dòng)物。因?yàn)檫@是進(jìn)化的必要條件：看到和做到是一個(gè)閉環(huán)，”李飛飛表示。

她用她最喜歡的貓咪作為例子。

一只貓咪、一杯牛奶、還有植物在桌子上的照片。當(dāng)你看到這張照片時(shí)，你腦海里其實(shí)出現(xiàn)一個(gè)三維視頻。你看到了形狀，你看到了幾何。

事實(shí)上，你看到了幾秒鐘前已經(jīng)發(fā)生的事情，和幾秒種后可能發(fā)生的事情。你看到了這張照片的三維空間。你在計(jì)劃接下來(lái)做點(diǎn)什么。你大腦在運(yùn)轉(zhuǎn)，計(jì)算如何做才能拯救你的地毯，特別是這只貓咪是你自己的，地毯也是你自己的。

“我把這一切稱作空間智能，也就是將三維世界做成模型，就物體、地點(diǎn)、事件等在三維空間和時(shí)間內(nèi)等進(jìn)行推理。在這個(gè)例子里，我談的是真實(shí)世界，但也可以指虛擬的世界。但是空間智能的底線是將“看到”和“做到”聯(lián)系在一起。有一天，AI將可以做到這一點(diǎn)，“李飛飛表示。

其次，李飛飛展示了基于多張照片重建的三維視頻，然后她給出基于一張照片做的三維視頻，這些技術(shù)都可用于設(shè)計(jì)中。

李飛飛表示，具身智能AI或者人形機(jī)器人，可以將把“看到”與“做到”形成閉環(huán)。

她表示，斯坦福大學(xué)的同事們和芯片巨頭英偉達(dá)正在聯(lián)合進(jìn)行名為BEHAVIOR的研究，將家庭活動(dòng)構(gòu)建一個(gè)基準(zhǔn)的動(dòng)態(tài)空間，從而評(píng)估各種機(jī)器人在居家環(huán)境中的表現(xiàn)。“我們正在研究如何將語(yǔ)言模型與大型視覺(jué)模型相連接，從而可以指揮機(jī)器人制定計(jì)劃并開始行動(dòng)，“她說(shuō)。她給出三個(gè)例子，一個(gè)是機(jī)器人在打開抽屜，另一個(gè)是機(jī)器人在將手機(jī)充電線拔掉，第三個(gè)是機(jī)器人在做三明治。所有指令均通過(guò)人類的自然語(yǔ)言給出。

最后，她給出一個(gè)例子，認(rèn)為未來(lái)屬于“空間智能”世界，人類可以坐在那里，帶上一頂有傳感器的EEG帽子，不用張嘴說(shuō)話，僅靠意念遠(yuǎn)程告訴機(jī)器人：做一頓日式大餐吧。機(jī)器人收到意念后，解密意念，即可搞出全套大餐。

“當(dāng)我們將‘看到’與‘做到’通過(guò)空間智能聯(lián)系在一起后，我們即可做到。”她表示。

李飛飛還表示，過(guò)去20年，她見(jiàn)證了AI激動(dòng)人心的發(fā)展。但是，她認(rèn)為AI或者AGI的關(guān)鍵一環(huán)就是空間智能。通過(guò)空間智能，看到世界、感知世界、理解世界并讓機(jī)器人做事，從而形成良性閉環(huán)。

機(jī)器人將接管人類嗎？

李飛飛在會(huì)議上表示，今天人們對(duì)于AI未來(lái)可以做什么太過(guò)夸張。她警告，人們不要將野心勃勃的、勇敢的目標(biāo)與現(xiàn)實(shí)混為一談，人們聽到太多這樣的論調(diào)。

事實(shí)上，當(dāng)前AI已經(jīng)到達(dá)拐點(diǎn)，特別是大語(yǔ)言模型。“但是，它仍然是充滿錯(cuò)誤的、有限的技術(shù)，仍需要人類深度參與其中，需要人類理解它的有限性?，F(xiàn)在非常危險(xiǎn)的論調(diào)是所謂的人類滅絕的風(fēng)險(xiǎn)，即AI正在成為人類的機(jī)器主宰。我認(rèn)為，這對(duì)社會(huì)非常危險(xiǎn)，此類言論將帶來(lái)很多意外后果。AI的局限性沒(méi)有被人類充分理解。我們需要深思熟慮的、平衡的、沒(méi)有偏見(jiàn)的關(guān)于AI的交流和教育，“李飛飛強(qiáng)調(diào)說(shuō)。

李飛飛認(rèn)為，AI應(yīng)該扎根于人類。人類創(chuàng)造了它，人類正在發(fā)展它，人類正在使用它，人類也應(yīng)該管理它。

李飛飛表示，在斯坦福大學(xué)“以人為本的AI“研究所，他們采取了三個(gè)對(duì)待AI的方式，包括個(gè)人、社區(qū)和社會(huì)三個(gè)層面：

在個(gè)人層面，必須參與并擁抱AI。這是一個(gè)文明的科技。AI改變孩子們?nèi)绾螌W(xué)習(xí)，改變了醫(yī)生如何使用診斷方法，改變了藝術(shù)家如何設(shè)計(jì)，改變了老師如何授課。不管是否為科技人員，均可以發(fā)揮自己的作用，用負(fù)責(zé)任地態(tài)度使用AI。

在社區(qū)層面，AI可向社區(qū)賦能，可滿足社區(qū)的環(huán)境保護(hù)需求，或者農(nóng)業(yè)需求。有些農(nóng)業(yè)社區(qū)使用機(jī)器學(xué)習(xí)技術(shù)來(lái)檢測(cè)社區(qū)水質(zhì)。藝術(shù)家社區(qū)不僅在使用AI，而且表達(dá)了他們的擔(dān)憂，以及如何解決問(wèn)題、減輕風(fēng)險(xiǎn)的想法。

在社會(huì)層面，政府、研究機(jī)構(gòu)、企業(yè)、聯(lián)邦機(jī)構(gòu)和國(guó)際機(jī)構(gòu)均應(yīng)該認(rèn)真對(duì)待這項(xiàng)科技。存在能源問(wèn)題，這會(huì)影響到地緣政治。仍有開源與非開源的大討論，這影響到經(jīng)濟(jì)和生態(tài)。仍有管理的問(wèn)題，比如AI的風(fēng)險(xiǎn)與安全等。必須采取積極的方式，一個(gè)多方參與的方式，一個(gè)全社會(huì)的方式?，F(xiàn)在已經(jīng)沒(méi)有回頭路，李飛飛表示。她2017至2018年在谷歌領(lǐng)導(dǎo)AI項(xiàng)目，在2020年至2022年擔(dān)任推特的董事會(huì)成員，目前是美國(guó)白宮的AI顧問(wèn)。

關(guān)于AI對(duì)于工作的影響，李飛飛分享了她的看法。

李飛飛指出，在斯坦福大學(xué)以人為本AI研究所內(nèi)，有個(gè)數(shù)字經(jīng)濟(jì)實(shí)驗(yàn)室，由Erik Brynjolfsson教授領(lǐng)導(dǎo)。這個(gè)非常復(fù)雜的問(wèn)題有很多層面。她特別強(qiáng)調(diào)，“工作”與“任務(wù)”是兩個(gè)不同的概念，因?yàn)閷?shí)際中每個(gè)人的工作都由多項(xiàng)任務(wù)組成。

她以美國(guó)護(hù)士作例子。據(jù)估計(jì)，在護(hù)士8個(gè)小時(shí)的班次中，任務(wù)數(shù)以百計(jì)。因此，當(dāng)人們討論AI接管或者取代人類的工作時(shí)，必須分清是在取代任務(wù)還是在取代工作？

李飛飛認(rèn)為，AI改變了一個(gè)工作內(nèi)的多項(xiàng)任務(wù)，因此也會(huì)逐漸改變工作的性質(zhì)。在呼叫中心場(chǎng)景中，新手的工作質(zhì)量被AI提高了30%，但是熟練人員的工作質(zhì)量并未因AI而有所提升。斯坦福大學(xué)數(shù)字經(jīng)濟(jì)實(shí)驗(yàn)室的一篇文章呼應(yīng)了李飛飛的觀點(diǎn)，該文章的標(biāo)題是：“AI不會(huì)取代經(jīng)理的工作：使用AI的經(jīng)理正在取代不使用AI的經(jīng)理。”

李飛飛強(qiáng)調(diào)，科技會(huì)帶來(lái)生產(chǎn)力的進(jìn)步，但是生產(chǎn)力的進(jìn)步并不會(huì)自動(dòng)轉(zhuǎn)化為社會(huì)的共同繁榮。她指出，歷史上曾多次發(fā)生這樣的事件。

作者：Chelsea_Sun 編輯：胡潤(rùn)峰林志佳

封面圖片來(lái)源：視覺(jué)中國(guó)-VCG41N970174988

責(zé)編張楊運(yùn)

特別提醒：如果我們使用了您的圖片，請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。