每日經(jīng)濟(jì)新聞 2024-03-17 23:29:53
每經(jīng)記者 可楊 每經(jīng)編輯 文多
錢學(xué)森在《從飛機(jī)、導(dǎo)彈說到生產(chǎn)過程的自動(dòng)化》一書中寫下:“用機(jī)器代替人的體力勞動(dòng),是第一次工業(yè)革命,即機(jī)械化;用機(jī)械系統(tǒng)來替人作非創(chuàng)造性的腦力勞動(dòng),是第二次工業(yè)革命,即自動(dòng)化。”
3月15日,由工業(yè)和信息化部工業(yè)文化發(fā)展中心牽頭成立的AI應(yīng)用工作組主辦,每日經(jīng)濟(jì)新聞承辦、數(shù)智未來場(chǎng)景實(shí)驗(yàn)室協(xié)辦的“Sora的啟示:AI應(yīng)用再飛躍”主題沙龍活動(dòng)在京成功舉辦。
活動(dòng)期間,商湯智能產(chǎn)業(yè)研究院院長(zhǎng)田豐在接受《每日經(jīng)濟(jì)新聞》記者專訪時(shí)提到,當(dāng)前我們正在經(jīng)歷“機(jī)械化”到“自動(dòng)化”階段。
大模型,是人類邁向自動(dòng)化的關(guān)鍵基礎(chǔ)設(shè)施。隨著Sora的推出,圍繞大模型的競(jìng)爭(zhēng)繼續(xù)提速。就Sora帶來的啟示、智能基礎(chǔ)設(shè)施的建設(shè)、算力的普惠之路,《每日經(jīng)濟(jì)新聞》記者與田豐展開對(duì)話。
田豐認(rèn)為,我們既要借鑒OpenAI的“踏腳石理論”,同時(shí)也要學(xué)習(xí)錢學(xué)森所推崇的科研要遵循“冰山理論”。“我們不能只看水面上,別人做到哪兒,我們就馬上去跟,也要看到水面之下應(yīng)該怎么走。”田豐表示。
Sora的啟示:尋找踏腳石
Scaling Laws(尺度定律),指的是模型訓(xùn)練計(jì)算量、訓(xùn)練數(shù)據(jù)規(guī)模、模型參數(shù)量與模型效能之間的正相關(guān)關(guān)系,一個(gè)更通俗的說法是“大力出奇跡”。
“Sora雖然不完美并且處于早期階段,但它確實(shí)是尺度定律的又一次驗(yàn)證,也是一個(gè)大模型工程化的進(jìn)展。”在田豐看來,Sora的誕生,首先代表著尺度定律的又一次成功。
田豐指出,Sora所采用的Diffusion Transformer(DiT)架構(gòu),是多種已有架構(gòu)之間的工程化融合,故而具備Diffusion(擴(kuò)散)等架構(gòu)的長(zhǎng)處,也不可避免地帶有一些缺陷。目前,全球范圍內(nèi)的研究者同時(shí)在探索不同架構(gòu)方向。田豐將這種探索比喻為一棵科技樹,Sora是在其中某一條路徑上領(lǐng)先,而其他研究者會(huì)在其他路徑上積極探索,最終互相借鑒,讓AI基礎(chǔ)科研更快發(fā)展。
田豐認(rèn)為,Sora所帶來的另一個(gè)啟示是,Sora是OpenAI邁向AGI(人工通用智能)的“踏腳石”。
“新奇事物的重要性在于,它們往往可以成為踏腳石探測(cè)器,因?yàn)槿魏涡缕娴臇|西,都是催生更新奇事物的潛在踏腳石。”OpenAI科學(xué)家在其撰寫的《為什么偉大不能被計(jì)劃》一書中,提到了“踏腳石”。
在專訪中,田豐也反復(fù)提及“踏腳石理論”。他表示,在基礎(chǔ)研發(fā)中,想達(dá)到A點(diǎn),有可能需要往反方向走到B點(diǎn),進(jìn)而再到達(dá)A點(diǎn)。因?yàn)閯?chuàng)造力是一種“搜索”,基礎(chǔ)研發(fā)是在龐大“解空間”中通過多個(gè)路徑深入探索,而無法完全通過目標(biāo)找到最短的直線。“怎么去定義踏腳石,就是一定要有新奇性。”
田豐表示,基于這個(gè)理論,中國(guó)技術(shù)研發(fā)也要找到更多踏腳石。“你有更多的踏腳石之后,就能發(fā)現(xiàn)跨領(lǐng)域、跨學(xué)科的相關(guān)性,上面‘長(zhǎng)’出的基礎(chǔ)研發(fā)突破就會(huì)更多。”
除此之外,田豐同樣談到錢學(xué)森所推崇的“科研遵循‘冰山理論’”,即人們看到的AI“技術(shù)突變”只是水面之上的“冰山一角”,水面之下還有更多“隱藏創(chuàng)新”在支撐。“我們不能只看水面上,別人做到哪兒,我們就馬上去跟,也要看到水面之下基礎(chǔ)科研布局,應(yīng)該怎么走。”
那在大模型競(jìng)爭(zhēng)中,水面之下的技術(shù)應(yīng)該如何挖掘?
田豐認(rèn)為,目前大家有不同的探索方向。例如,自動(dòng)駕駛的大模型旨在模擬現(xiàn)實(shí)世界,實(shí)現(xiàn)自動(dòng)駕駛的仿真,并通過神經(jīng)網(wǎng)絡(luò)來完成感知、決策、執(zhí)行及反饋等任務(wù)。而特斯拉將自動(dòng)駕駛模式遷移到人形機(jī)器人上。于是,人形機(jī)器人的出現(xiàn),又可以進(jìn)一步作為數(shù)據(jù)和反饋來源,驗(yàn)證基礎(chǔ)大模型對(duì)現(xiàn)實(shí)世界的認(rèn)知誤差、糾正幻覺。
當(dāng)前對(duì)于大模型的驗(yàn)證還依賴于人類反饋強(qiáng)化學(xué)習(xí)(Reinforcement Learning from Human Feedback,簡(jiǎn)稱 RLHF),而這面臨反饋速度慢、成本高以及人的自身認(rèn)知偏差等問題。因此,科研界同樣在嘗試采用“具身智能”等其他新研究方向,以在復(fù)雜多變的物理世界環(huán)境中直接驗(yàn)證機(jī)器智能,讓人工智能不再局限于對(duì)人的模仿,而是更直接地探索世界、糾偏認(rèn)知。
“通往AGI的路,絕對(duì)不是只有一條。”田豐認(rèn)為,基于這樣多元化的探索,才會(huì)有可能逐步到達(dá)AGI。而單純依靠模仿人類思考方式的大模型,對(duì)于極為復(fù)雜的整個(gè)物理世界,尤其是人類已知知識(shí)以外的更大的知識(shí)領(lǐng)域是無法去探索的。正如錢學(xué)森所說——“Nothing is Final”,現(xiàn)在認(rèn)為正確的人類知識(shí),在下一個(gè)時(shí)代看來就會(huì)具有局限性和偏差。
數(shù)據(jù)競(jìng)速:AI合成數(shù)據(jù)大有可為
對(duì)于通用大模型而言,尺度定律(Scaling Laws),有沒有可能在某一階段失效?
“(在)訓(xùn)練數(shù)據(jù)用光時(shí)”——這是田豐的答案。
田豐認(rèn)為,數(shù)據(jù)多模態(tài)非常重要。“文字語言具有最高的知識(shí)密度,但是光有文字語言也不夠,視覺和語言的融合也很重要。”他表示,純視覺學(xué)習(xí)未必會(huì)學(xué)到物理之間的因果關(guān)系,視覺加語言的數(shù)據(jù),會(huì)帶來更好的訓(xùn)練效果,讓大模型能夠理解復(fù)雜環(huán)境、復(fù)雜任務(wù)中的表征和表意內(nèi)容,也能讓Sora現(xiàn)在存在的一些物理上的混亂,得到改善。
從數(shù)據(jù)層面看,田豐認(rèn)為,目前存在多個(gè)潛在的訓(xùn)練數(shù)據(jù)增長(zhǎng)點(diǎn)。
首要的是人們?nèi)粘J褂玫膽?yīng)用。例如微博,每日有2.6億用戶在微博發(fā)帖,這為模型訓(xùn)練提供了豐富的增量數(shù)據(jù)。其次,具身智能的傳感技術(shù),同樣能夠提供數(shù)據(jù)增量,例如自動(dòng)駕駛汽車和人形機(jī)器人都是數(shù)據(jù)收集器。此外,商湯目前的衛(wèi)星遙感智能解譯技術(shù),能夠觀察地球物理環(huán)境每一天發(fā)生的多維度變化,同樣提供了大量的數(shù)據(jù)資源。
當(dāng)現(xiàn)實(shí)世界產(chǎn)生的數(shù)據(jù)仍舊不足時(shí),就需要同時(shí)在AI合成數(shù)據(jù)層面進(jìn)行科研探索。田豐介紹,目前,合成數(shù)據(jù)仍處于前期階段,生成的數(shù)據(jù)質(zhì)量參差不齊。業(yè)界期待多模態(tài)大模型不僅能輸入多模態(tài)數(shù)據(jù),同時(shí)還能產(chǎn)出接近真實(shí)世界的高質(zhì)量多模態(tài)數(shù)據(jù)。
但當(dāng)前,如果視頻數(shù)據(jù)自動(dòng)標(biāo)注的描述文字不精準(zhǔn),則會(huì)造成“Garbage in,garbage out”(指輸入的垃圾數(shù)據(jù)會(huì)導(dǎo)致大模型輸出的垃圾結(jié)果),其風(fēng)險(xiǎn)依舊擺在AI合成數(shù)據(jù)面前,各國(guó)AI基礎(chǔ)科研團(tuán)隊(duì)正在攻堅(jiān)。
對(duì)此,田豐則認(rèn)為,業(yè)界都憧憬做成“世界模擬器”,但目前生成的視頻數(shù)據(jù)與真實(shí)世界仍有較大距離。Sora所生成的最好的視頻內(nèi)容是“我的世界”游戲視頻,幾乎與玩家實(shí)際體驗(yàn)無異。這得益于OpenAI對(duì)“我的世界”游戲公司與游戲引擎的收購(gòu)。
游戲引擎為了讓玩家感覺更真實(shí),無論是光照、紋理還是人和物體之間的交互,都比較接近現(xiàn)實(shí)世界。所以Sora用這樣的訓(xùn)練數(shù)據(jù)來生成,使得大模型能夠從中學(xué)習(xí)并理解游戲中的復(fù)雜因果關(guān)系,進(jìn)而生成逼真的內(nèi)容。更為重要的是,游戲世界會(huì)一直產(chǎn)生大量較低成本的世界仿真數(shù)據(jù),比從現(xiàn)實(shí)中收集要快很多。
“但它(指Sora為代表的大模型)是不是真正理解現(xiàn)實(shí)世界、物理世界的所有因果規(guī)律?其實(shí),人類目前仍沒有完全理解和掌握。”田豐繼續(xù)說道,從這個(gè)角度而言,合成數(shù)據(jù)很重要的一點(diǎn)是,我們應(yīng)像對(duì)抗神經(jīng)網(wǎng)絡(luò)的邏輯一樣,必須有另一個(gè)模型驗(yàn)證合成數(shù)據(jù)與事實(shí)的接近程度。
將視線聚焦于當(dāng)前的數(shù)據(jù)競(jìng)爭(zhēng)態(tài)勢(shì),田豐表示,中國(guó)擁有14億人口,每天都在產(chǎn)生海量的數(shù)據(jù),這就意味著巨大的潛力,我們有能力以更低的成本來采集這些數(shù)據(jù)。此外,中國(guó)還擁有106億的物聯(lián)網(wǎng)終端,其中尚未采集到的各類數(shù)據(jù)——如工業(yè)傳感信號(hào)等,都是極具價(jià)值的資源。若能成功采集到這些數(shù)據(jù),將成為訓(xùn)練垂類大模型的優(yōu)質(zhì)素材,也能幫助大模型更深入地理解產(chǎn)業(yè)場(chǎng)景中事物之間的因果關(guān)系。此外,在合成數(shù)據(jù)方面,大家也均處于起步階段,還在互相競(jìng)爭(zhēng)。
田豐認(rèn)為,人工智能是當(dāng)今社會(huì)數(shù)據(jù)資源最大的需求方,若能在數(shù)據(jù)領(lǐng)域構(gòu)建出完善的體制機(jī)制,使數(shù)據(jù)成為市場(chǎng)化流通的關(guān)鍵要素,那么便能在數(shù)據(jù)層面持續(xù)推動(dòng)尺度定律,加速大模型的進(jìn)步。
如何實(shí)現(xiàn)AGI??jī)蓷l路徑并行
如何實(shí)現(xiàn)AGI?田豐提出兩個(gè)方向。從生成智能的角度來看,生成式人工智能正在逐步轉(zhuǎn)向更具創(chuàng)意性的工作,這需要更多大模型的“幻覺”想象力。在這條路徑上,“幻覺”并不是壞事,創(chuàng)作科幻小說、科幻電影就體現(xiàn)出了這一點(diǎn)——想象力在其中扮演著至關(guān)重要的角色。愛因斯坦也曾經(jīng)提出“想象力比知識(shí)更為重要”。
另一個(gè)方向則更加側(cè)重于科學(xué)和工業(yè)產(chǎn)業(yè)具體問題的解決,這就需要致力于減少幻覺,持續(xù)提高準(zhǔn)確度和可靠性,一旦能夠達(dá)到人類科學(xué)家、工程師的平均水平,突破“工業(yè)紅線”,大模型就能全面普及到各個(gè)行業(yè)產(chǎn)業(yè)和科研領(lǐng)域。
在田豐看來,大模型實(shí)則是公共基礎(chǔ)設(shè)施的一部分,是智能基礎(chǔ)設(shè)施,而基礎(chǔ)設(shè)施的特點(diǎn)就是重資產(chǎn)型、重資本型。
在現(xiàn)有情況下,大模型研發(fā)與應(yīng)用是一個(gè)長(zhǎng)期投資。一方面,基礎(chǔ)模型不能跟進(jìn)到GPT4,就自認(rèn)為“領(lǐng)先全球”,另一方面,在國(guó)產(chǎn)基礎(chǔ)模型與國(guó)際縮小差距的同時(shí),也要積極探索新的發(fā)展方向。“開拓者創(chuàng)造方向,跟隨者選擇方向,領(lǐng)先者并不代表永遠(yuǎn)的成功,而可能被具有強(qiáng)大創(chuàng)新能力的跟隨者趕超。”從這一角度看,長(zhǎng)周期持續(xù)的人工智能基礎(chǔ)科研、基礎(chǔ)建設(shè)資本投入至關(guān)重要,這也是充分發(fā)揮制度創(chuàng)新的機(jī)遇。
盡管資本通常會(huì)關(guān)注盈利問題,但也不是絕對(duì),田豐用他在云計(jì)算產(chǎn)業(yè)的經(jīng)驗(yàn)舉了個(gè)例子。2012年前后,云計(jì)算公司主要的用戶群體是網(wǎng)站站主,且許多是個(gè)人網(wǎng)站站主,資金相對(duì)匱乏。新一代基礎(chǔ)設(shè)施的早期,是投資與“裝置”期,表象上就是盈利難。
然而,根據(jù)世界銀行《為發(fā)展提供基礎(chǔ)設(shè)施》報(bào)告分析,基礎(chǔ)設(shè)施投資、“裝置”期通常需要10年甚至15年,而基礎(chǔ)設(shè)施投資建設(shè)往往伴隨著經(jīng)濟(jì)周期的上升階段,當(dāng)基礎(chǔ)設(shè)施建設(shè)成熟,則會(huì)持續(xù)產(chǎn)生廣泛普惠的社會(huì)全產(chǎn)業(yè)價(jià)值。例如當(dāng)前,云計(jì)算已經(jīng)逐漸成為企業(yè)和科研通用型技術(shù),廣泛應(yīng)用于金融、能源、交通等多個(gè)領(lǐng)域。因此,人工智能基礎(chǔ)設(shè)施的建設(shè)在前期更多地依賴于國(guó)家大基金和大型企業(yè)的投資,類似于高速公路、5G通信網(wǎng)絡(luò)的建設(shè)。這種資本增密的投資模式對(duì)于推動(dòng)新質(zhì)生產(chǎn)力技術(shù)的發(fā)展和新一波經(jīng)濟(jì)繁榮至關(guān)重要。
因此,目前我們?nèi)蕴幱诨A(chǔ)設(shè)施建設(shè)階段,為了將來能建成“萬里長(zhǎng)城”,先要把地基打好。在基礎(chǔ)設(shè)施的“裝置”期,需要在超大規(guī)模AI算力中心、統(tǒng)一數(shù)據(jù)市場(chǎng)平臺(tái)上追加投入,充分挖掘并利用我國(guó)的數(shù)據(jù)資源、大市場(chǎng)規(guī)模和科技人才儲(chǔ)備。
如何促進(jìn)應(yīng)用繁榮?算力普惠是關(guān)鍵
在重資產(chǎn)、重資本型的背景下,對(duì)于未來“百模大戰(zhàn)”的終局,田豐用操作系統(tǒng)的競(jìng)爭(zhēng)來舉例:
“當(dāng)時(shí)多家廠商的很多人覺得(操作系統(tǒng))就是‘大B’的事情,即大模型從頭部大企業(yè)端賺錢。以1981年個(gè)人電腦操作系統(tǒng)的‘春秋戰(zhàn)國(guó)時(shí)期’為例,UCSD Pascal P-System(一種操作系統(tǒng))單機(jī)授權(quán)費(fèi)高達(dá)450美元,CP/M-86(同為一種操作系統(tǒng))授權(quán)費(fèi)是175美元,而微軟MSDOS僅向買PC的消費(fèi)者收60美金,而IBM可免費(fèi)使用微軟開發(fā)的操作系統(tǒng),但不能獨(dú)占使用權(quán)。
“微軟選擇的差異化戰(zhàn)略是什么?比爾·蓋茨在《未來之路》一書里寫下:‘我們的目標(biāo)不是要直接從IBM(大企業(yè))那里賺錢,而是把軟件平臺(tái)的特許使用權(quán)出售給個(gè)人計(jì)算機(jī)工業(yè)(所有硬件)的生意。’比爾蓋茨的目標(biāo),是計(jì)算機(jī)的使用接近免費(fèi)時(shí),自己的操作系統(tǒng)將占有最大市場(chǎng)份額。
“雖然大模型目前還處于企業(yè)級(jí)應(yīng)用市場(chǎng),但伴隨AI芯片算力價(jià)格的持續(xù)下降、大模型個(gè)人終端涌現(xiàn),將會(huì)呈現(xiàn)大模型操作系統(tǒng)的‘馬太效應(yīng)’,頭部廠商占有最大市場(chǎng)規(guī)模。”
田豐認(rèn)為,目前大模型的方向并非是向大型企業(yè)收取高額費(fèi)用,而是應(yīng)當(dāng)通過低價(jià)、易開發(fā)、快迭代、硬件兼容等競(jìng)爭(zhēng)策略致力于最大限度搶占市場(chǎng)份額,并積極吸引各類AI新型硬件的支持。只要有越來越多的、不同類型的硬件終端支持同一款大模型,它就能像操作系統(tǒng)一樣受到AI應(yīng)用開發(fā)者的歡迎。而終端硬件選擇大模型,則源于消費(fèi)者用戶群體的驅(qū)動(dòng),而用戶之所以選擇某一款“操作系統(tǒng)”,是因?yàn)槠渖霞闪吮姸嘤尚∥⒒騻€(gè)人開發(fā)者開發(fā)的長(zhǎng)尾大模型應(yīng)用。這是Windows和iOS等頭部操作系統(tǒng)得以成功的原因,也是大模型突破紅海的一條已驗(yàn)證的戰(zhàn)略路徑。
目前,應(yīng)用所面臨的主要挑戰(zhàn)體現(xiàn)在兩大方面。
首先是算力成本問題。若算力成本持續(xù)高價(jià),長(zhǎng)期來看,必然會(huì)抑制大模型應(yīng)用創(chuàng)新的蓬勃發(fā)展,就像互聯(lián)網(wǎng)APP早期不是靠用戶每月交納30美元會(huì)員費(fèi),而是以近乎免費(fèi)的使用權(quán)拉動(dòng)新用戶“嘗鮮”。
因此,AI芯片行業(yè)勢(shì)必不斷降低成本,并通過智算中心架構(gòu)創(chuàng)新推動(dòng)AI云算力的普及化、全民化。若GPU領(lǐng)域不進(jìn)行快速改革,業(yè)界勢(shì)必出現(xiàn)新一代的芯片產(chǎn)品、計(jì)算力架構(gòu),以降低成本并促進(jìn)AI應(yīng)用的廣泛發(fā)展。
另一方面,大模型的持續(xù)升級(jí)也會(huì)給應(yīng)用帶來挑戰(zhàn)和機(jī)遇。由于大模型每月、每季度都在更新升級(jí),應(yīng)用在其原有基礎(chǔ)上的改進(jìn)可能很快被新版本大模型所替代和覆蓋,即大模型操作系統(tǒng)和應(yīng)用的“邊界”尚未確定,大模型不斷嘗試做應(yīng)用的功能,應(yīng)用則補(bǔ)上當(dāng)前版本大模型的“短板”,降低消費(fèi)者使用門檻。
因此,應(yīng)用開發(fā)商加深行業(yè)應(yīng)用“護(hù)城河”的同時(shí),可尋求與大模型的解耦,或提供跨多個(gè)大模型的統(tǒng)一服務(wù)入口、一站式用戶開發(fā)環(huán)境,并尋找產(chǎn)業(yè)中最具盈利潛力的商業(yè)路徑。
這樣一來,即便大模型升級(jí),應(yīng)用也能迅速跟上或匹配更優(yōu)競(jìng)爭(zhēng)力的其他模型,保持應(yīng)用層對(duì)私域用戶的競(jìng)爭(zhēng)力。但長(zhǎng)遠(yuǎn)來看,應(yīng)用開發(fā)者依舊會(huì)逐漸趨向使用更為穩(wěn)定、功能強(qiáng)大的頭部大模型底座。
圍繞算力問題,田豐表示,目前,我們正處于人工智能時(shí)代的算力初期階段,算力成本仍然較高,只有大型企業(yè)能夠負(fù)擔(dān)。然而,隨著國(guó)產(chǎn)AI芯片、國(guó)產(chǎn)超大規(guī)模AI智算中心技術(shù)的不斷進(jìn)步,算力成本就會(huì)逐漸降低,每個(gè)人也能接近以免費(fèi)的方式享用新一代人工智能的科技紅利。龐大市場(chǎng)的吸引力,將倒逼AI模型架構(gòu)和AI算力集群架構(gòu)的深刻變化。
因此,田豐認(rèn)為,當(dāng)前正處于AI計(jì)算大變革的前夜。他表示,當(dāng)AI算力成本降至拐點(diǎn)時(shí),社會(huì)需求量與用戶規(guī)模將會(huì)迅速飆升,助推全民AI創(chuàng)業(yè)熱潮,普通用戶會(huì)發(fā)現(xiàn)算力成本已經(jīng)逐步平攤到廣告成本或交易成本里。“科技發(fā)展史證明智能產(chǎn)業(yè)普及期是這樣的,但怎么會(huì)發(fā)生?就要回到新一代人工智能基礎(chǔ)研發(fā)的路徑上,要找到新的踏腳石,一步一步走過去。”
如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP