每日經(jīng)濟新聞
今日報紙

每經(jīng)網(wǎng)首頁 > 今日報紙 > 正文

專訪商湯智能產(chǎn)業(yè)研究院院長田豐:推動“冰山之下”的大模型技術(shù)創(chuàng)新探索

每日經(jīng)濟新聞 2024-03-17 23:29:54

每經(jīng)記者 可楊    每經(jīng)編輯 文多    

錢學(xué)森在《從飛機、導(dǎo)彈說到生產(chǎn)過程的自動化》一書中寫下:“用機器代替人的體力勞動,是第一次工業(yè)革命,即機械化;用機械系統(tǒng)來替人作非創(chuàng)造性的腦力勞動,是第二次工業(yè)革命,即自動化。”

3月15日,由工業(yè)和信息化部工業(yè)文化發(fā)展中心牽頭成立的AI應(yīng)用工作組主辦,每日經(jīng)濟新聞承辦、數(shù)智未來場景實驗室協(xié)辦的“Sora的啟示:AI應(yīng)用再飛躍”主題沙龍活動在京成功舉辦。

活動期間,商湯智能產(chǎn)業(yè)研究院院長田豐在接受《每日經(jīng)濟新聞》記者專訪時提到,當前我們正在經(jīng)歷“機械化”到“自動化”階段。

大模型,是人類邁向自動化的關(guān)鍵基礎(chǔ)設(shè)施。隨著Sora的推出,圍繞大模型的競爭繼續(xù)提速。就Sora帶來的啟示、智能基礎(chǔ)設(shè)施的建設(shè)、算力的普惠之路,《每日經(jīng)濟新聞》記者與田豐展開對話。

田豐認為,我們既要借鑒OpenAI的“踏腳石理論”,同時也要學(xué)習(xí)錢學(xué)森所推崇的科研要遵循“冰山理論”。“我們不能只看水面上,別人做到哪兒,我們就馬上去跟,也要看到水面之下應(yīng)該怎么走。”田豐表示。

Sora的啟示:尋找踏腳石

Scaling Laws(尺度定律),指的是模型訓(xùn)練計算量、訓(xùn)練數(shù)據(jù)規(guī)模、模型參數(shù)量與模型效能之間的正相關(guān)關(guān)系,一個更通俗的說法是“大力出奇跡”。

“Sora雖然不完美并且處于早期階段,但它確實是尺度定律的又一次驗證,也是一個大模型工程化的進展。”在田豐看來,Sora的誕生,首先代表著尺度定律的又一次成功。

田豐指出,Sora所采用的Diffusion Transformer(DiT)架構(gòu),是多種已有架構(gòu)之間的工程化融合,故而具備Diffusion(擴散)等架構(gòu)的長處,也不可避免地帶有一些缺陷。目前,全球范圍內(nèi)的研究者同時在探索不同架構(gòu)方向。田豐將這種探索比喻為一棵科技樹,Sora是在其中某一條路徑上領(lǐng)先,而其他研究者會在其他路徑上積極探索,最終互相借鑒,讓AI基礎(chǔ)科研更快發(fā)展。

田豐認為,Sora所帶來的另一個啟示是,Sora是OpenAI邁向AGI(人工通用智能)的“踏腳石”。

“新奇事物的重要性在于,它們往往可以成為踏腳石探測器,因為任何新奇的東西,都是催生更新奇事物的潛在踏腳石。”OpenAI科學(xué)家在其撰寫的《為什么偉大不能被計劃》一書中,提到了“踏腳石”。

在專訪中,田豐也反復(fù)提及“踏腳石理論”。他表示,在基礎(chǔ)研發(fā)中,想達到A點,有可能需要往反方向走到B點,進而再到達A點。因為創(chuàng)造力是一種“搜索”,基礎(chǔ)研發(fā)是在龐大“解空間”中通過多個路徑深入探索,而無法完全通過目標找到最短的直線。“怎么去定義踏腳石,就是一定要有新奇性。”

田豐表示,基于這個理論,中國技術(shù)研發(fā)也要找到更多踏腳石。“你有更多的踏腳石之后,就能發(fā)現(xiàn)跨領(lǐng)域、跨學(xué)科的相關(guān)性,上面‘長’出的基礎(chǔ)研發(fā)突破就會更多。”

除此之外,田豐同樣談到錢學(xué)森所推崇的“科研遵循‘冰山理論’”,即人們看到的AI“技術(shù)突變”只是水面之上的“冰山一角”,水面之下還有更多“隱藏創(chuàng)新”在支撐。“我們不能只看水面上,別人做到哪兒,我們就馬上去跟,也要看到水面之下基礎(chǔ)科研布局,應(yīng)該怎么走。”

那在大模型競爭中,水面之下的技術(shù)應(yīng)該如何挖掘?

田豐認為,目前大家有不同的探索方向。例如,自動駕駛的大模型旨在模擬現(xiàn)實世界,實現(xiàn)自動駕駛的仿真,并通過神經(jīng)網(wǎng)絡(luò)來完成感知、決策、執(zhí)行及反饋等任務(wù)。而特斯拉將自動駕駛模式遷移到人形機器人上。于是,人形機器人的出現(xiàn),又可以進一步作為數(shù)據(jù)和反饋來源,驗證基礎(chǔ)大模型對現(xiàn)實世界的認知誤差、糾正幻覺。

當前對于大模型的驗證還依賴于人類反饋強化學(xué)習(xí)(Reinforcement Learning from Human Feedback,簡稱 RLHF),而這面臨反饋速度慢、成本高以及人的自身認知偏差等問題。因此,科研界同樣在嘗試采用“具身智能”等其他新研究方向,以在復(fù)雜多變的物理世界環(huán)境中直接驗證機器智能,讓人工智能不再局限于對人的模仿,而是更直接地探索世界、糾偏認知。

“通往AGI的路,絕對不是只有一條。”田豐認為,基于這樣多元化的探索,才會有可能逐步到達AGI。而單純依靠模仿人類思考方式的大模型,對于極為復(fù)雜的整個物理世界,尤其是人類已知知識以外的更大的知識領(lǐng)域是無法去探索的。正如錢學(xué)森所說——“Nothing is Final”,現(xiàn)在認為正確的人類知識,在下一個時代看來就會具有局限性和偏差。

數(shù)據(jù)競速:AI合成數(shù)據(jù)大有可為

對于通用大模型而言,尺度定律(Scaling Laws),有沒有可能在某一階段失效?

“(在)訓(xùn)練數(shù)據(jù)用光時”——這是田豐的答案。

田豐認為,數(shù)據(jù)多模態(tài)非常重要。“文字語言具有最高的知識密度,但是光有文字語言也不夠,視覺和語言的融合也很重要。”他表示,純視覺學(xué)習(xí)未必會學(xué)到物理之間的因果關(guān)系,視覺加語言的數(shù)據(jù),會帶來更好的訓(xùn)練效果,讓大模型能夠理解復(fù)雜環(huán)境、復(fù)雜任務(wù)中的表征和表意內(nèi)容,也能讓Sora現(xiàn)在存在的一些物理上的混亂,得到改善。

從數(shù)據(jù)層面看,田豐認為,目前存在多個潛在的訓(xùn)練數(shù)據(jù)增長點。

首要的是人們?nèi)粘J褂玫膽?yīng)用。例如微博,每日有2.6億用戶在微博發(fā)帖,這為模型訓(xùn)練提供了豐富的增量數(shù)據(jù)。其次,具身智能的傳感技術(shù),同樣能夠提供數(shù)據(jù)增量,例如自動駕駛汽車和人形機器人都是數(shù)據(jù)收集器。此外,商湯目前的衛(wèi)星遙感智能解譯技術(shù),能夠觀察地球物理環(huán)境每一天發(fā)生的多維度變化,同樣提供了大量的數(shù)據(jù)資源。

當現(xiàn)實世界產(chǎn)生的數(shù)據(jù)仍舊不足時,就需要同時在AI合成數(shù)據(jù)層面進行科研探索。田豐介紹,目前,合成數(shù)據(jù)仍處于前期階段,生成的數(shù)據(jù)質(zhì)量參差不齊。業(yè)界期待多模態(tài)大模型不僅能輸入多模態(tài)數(shù)據(jù),同時還能產(chǎn)出接近真實世界的高質(zhì)量多模態(tài)數(shù)據(jù)。

但當前,如果視頻數(shù)據(jù)自動標注的描述文字不精準,則會造成“Garbage in,garbage out”(指輸入的垃圾數(shù)據(jù)會導(dǎo)致大模型輸出的垃圾結(jié)果),其風(fēng)險依舊擺在AI合成數(shù)據(jù)面前,各國AI基礎(chǔ)科研團隊正在攻堅。

對此,田豐則認為,業(yè)界都憧憬做成“世界模擬器”,但目前生成的視頻數(shù)據(jù)與真實世界仍有較大距離。Sora所生成的最好的視頻內(nèi)容是“我的世界”游戲視頻,幾乎與玩家實際體驗無異。這得益于OpenAI對“我的世界”游戲公司與游戲引擎的收購。

游戲引擎為了讓玩家感覺更真實,無論是光照、紋理還是人和物體之間的交互,都比較接近現(xiàn)實世界。所以Sora用這樣的訓(xùn)練數(shù)據(jù)來生成,使得大模型能夠從中學(xué)習(xí)并理解游戲中的復(fù)雜因果關(guān)系,進而生成逼真的內(nèi)容。更為重要的是,游戲世界會一直產(chǎn)生大量較低成本的世界仿真數(shù)據(jù),比從現(xiàn)實中收集要快很多。

“但它(指Sora為代表的大模型)是不是真正理解現(xiàn)實世界、物理世界的所有因果規(guī)律?其實,人類目前仍沒有完全理解和掌握。”田豐繼續(xù)說道,從這個角度而言,合成數(shù)據(jù)很重要的一點是,我們應(yīng)像對抗神經(jīng)網(wǎng)絡(luò)的邏輯一樣,必須有另一個模型驗證合成數(shù)據(jù)與事實的接近程度。

將視線聚焦于當前的數(shù)據(jù)競爭態(tài)勢,田豐表示,中國擁有14億人口,每天都在產(chǎn)生海量的數(shù)據(jù),這就意味著巨大的潛力,我們有能力以更低的成本來采集這些數(shù)據(jù)。此外,中國還擁有106億的物聯(lián)網(wǎng)終端,其中尚未采集到的各類數(shù)據(jù)——如工業(yè)傳感信號等,都是極具價值的資源。若能成功采集到這些數(shù)據(jù),將成為訓(xùn)練垂類大模型的優(yōu)質(zhì)素材,也能幫助大模型更深入地理解產(chǎn)業(yè)場景中事物之間的因果關(guān)系。此外,在合成數(shù)據(jù)方面,大家也均處于起步階段,還在互相競爭。

田豐認為,人工智能是當今社會數(shù)據(jù)資源最大的需求方,若能在數(shù)據(jù)領(lǐng)域構(gòu)建出完善的體制機制,使數(shù)據(jù)成為市場化流通的關(guān)鍵要素,那么便能在數(shù)據(jù)層面持續(xù)推動尺度定律,加速大模型的進步。

如何實現(xiàn)AGI?兩條路徑并行

如何實現(xiàn)AGI?田豐提出兩個方向。從生成智能的角度來看,生成式人工智能正在逐步轉(zhuǎn)向更具創(chuàng)意性的工作,這需要更多大模型的“幻覺”想象力。在這條路徑上,“幻覺”并不是壞事,創(chuàng)作科幻小說、科幻電影就體現(xiàn)出了這一點——想象力在其中扮演著至關(guān)重要的角色。愛因斯坦也曾經(jīng)提出“想象力比知識更為重要”。

另一個方向則更加側(cè)重于科學(xué)和工業(yè)產(chǎn)業(yè)具體問題的解決,這就需要致力于減少幻覺,持續(xù)提高準確度和可靠性,一旦能夠達到人類科學(xué)家、工程師的平均水平,突破“工業(yè)紅線”,大模型就能全面普及到各個行業(yè)產(chǎn)業(yè)和科研領(lǐng)域。

在田豐看來,大模型實則是公共基礎(chǔ)設(shè)施的一部分,是智能基礎(chǔ)設(shè)施,而基礎(chǔ)設(shè)施的特點就是重資產(chǎn)型、重資本型。

在現(xiàn)有情況下,大模型研發(fā)與應(yīng)用是一個長期投資。一方面,基礎(chǔ)模型不能跟進到GPT4,就自認為“領(lǐng)先全球”,另一方面,在國產(chǎn)基礎(chǔ)模型與國際縮小差距的同時,也要積極探索新的發(fā)展方向。“開拓者創(chuàng)造方向,跟隨者選擇方向,領(lǐng)先者并不代表永遠的成功,而可能被具有強大創(chuàng)新能力的跟隨者趕超。”從這一角度看,長周期持續(xù)的人工智能基礎(chǔ)科研、基礎(chǔ)建設(shè)資本投入至關(guān)重要,這也是充分發(fā)揮制度創(chuàng)新的機遇。

盡管資本通常會關(guān)注盈利問題,但也不是絕對,田豐用他在云計算產(chǎn)業(yè)的經(jīng)驗舉了個例子。2012年前后,云計算公司主要的用戶群體是網(wǎng)站站主,且許多是個人網(wǎng)站站主,資金相對匱乏。新一代基礎(chǔ)設(shè)施的早期,是投資與“裝置”期,表象上就是盈利難。

然而,根據(jù)世界銀行《為發(fā)展提供基礎(chǔ)設(shè)施》報告分析,基礎(chǔ)設(shè)施投資、“裝置”期通常需要10年甚至15年,而基礎(chǔ)設(shè)施投資建設(shè)往往伴隨著經(jīng)濟周期的上升階段,當基礎(chǔ)設(shè)施建設(shè)成熟,則會持續(xù)產(chǎn)生廣泛普惠的社會全產(chǎn)業(yè)價值。例如當前,云計算已經(jīng)逐漸成為企業(yè)和科研通用型技術(shù),廣泛應(yīng)用于金融、能源、交通等多個領(lǐng)域。因此,人工智能基礎(chǔ)設(shè)施的建設(shè)在前期更多地依賴于國家大基金和大型企業(yè)的投資,類似于高速公路、5G通信網(wǎng)絡(luò)的建設(shè)。這種資本增密的投資模式對于推動新質(zhì)生產(chǎn)力技術(shù)的發(fā)展和新一波經(jīng)濟繁榮至關(guān)重要。

因此,目前我們?nèi)蕴幱诨A(chǔ)設(shè)施建設(shè)階段,為了將來能建成“萬里長城”,先要把地基打好。在基礎(chǔ)設(shè)施的“裝置”期,需要在超大規(guī)模AI算力中心、統(tǒng)一數(shù)據(jù)市場平臺上追加投入,充分挖掘并利用我國的數(shù)據(jù)資源、大市場規(guī)模和科技人才儲備。

如何促進應(yīng)用繁榮?算力普惠是關(guān)鍵

在重資產(chǎn)、重資本型的背景下,對于未來“百模大戰(zhàn)”的終局,田豐用操作系統(tǒng)的競爭來舉例:

“當時多家廠商的很多人覺得(操作系統(tǒng))就是‘大B’的事情,即大模型從頭部大企業(yè)端賺錢。以1981年個人電腦操作系統(tǒng)的‘春秋戰(zhàn)國時期’為例,UCSD Pascal P-System(一種操作系統(tǒng))單機授權(quán)費高達450美元,CP/M-86(同為一種操作系統(tǒng))授權(quán)費是175美元,而微軟MSDOS僅向買PC的消費者收60美金,而IBM可免費使用微軟開發(fā)的操作系統(tǒng),但不能獨占使用權(quán)。

“微軟選擇的差異化戰(zhàn)略是什么?比爾·蓋茨在《未來之路》一書里寫下:‘我們的目標不是要直接從IBM(大企業(yè))那里賺錢,而是把軟件平臺的特許使用權(quán)出售給個人計算機工業(yè)(所有硬件)的生意。’比爾蓋茨的目標,是計算機的使用接近免費時,自己的操作系統(tǒng)將占有最大市場份額。

“雖然大模型目前還處于企業(yè)級應(yīng)用市場,但伴隨AI芯片算力價格的持續(xù)下降、大模型個人終端涌現(xiàn),將會呈現(xiàn)大模型操作系統(tǒng)的‘馬太效應(yīng)’,頭部廠商占有最大市場規(guī)模。”

田豐認為,目前大模型的方向并非是向大型企業(yè)收取高額費用,而是應(yīng)當通過低價、易開發(fā)、快迭代、硬件兼容等競爭策略致力于最大限度搶占市場份額,并積極吸引各類AI新型硬件的支持。只要有越來越多的、不同類型的硬件終端支持同一款大模型,它就能像操作系統(tǒng)一樣受到AI應(yīng)用開發(fā)者的歡迎。而終端硬件選擇大模型,則源于消費者用戶群體的驅(qū)動,而用戶之所以選擇某一款“操作系統(tǒng)”,是因為其上集成了眾多由小微或個人開發(fā)者開發(fā)的長尾大模型應(yīng)用。這是Windows和iOS等頭部操作系統(tǒng)得以成功的原因,也是大模型突破紅海的一條已驗證的戰(zhàn)略路徑。

目前,應(yīng)用所面臨的主要挑戰(zhàn)體現(xiàn)在兩大方面。

首先是算力成本問題。若算力成本持續(xù)高價,長期來看,必然會抑制大模型應(yīng)用創(chuàng)新的蓬勃發(fā)展,就像互聯(lián)網(wǎng)APP早期不是靠用戶每月交納30美元會員費,而是以近乎免費的使用權(quán)拉動新用戶“嘗鮮”。

因此,AI芯片行業(yè)勢必不斷降低成本,并通過智算中心架構(gòu)創(chuàng)新推動AI云算力的普及化、全民化。若GPU領(lǐng)域不進行快速改革,業(yè)界勢必出現(xiàn)新一代的芯片產(chǎn)品、計算力架構(gòu),以降低成本并促進AI應(yīng)用的廣泛發(fā)展。

另一方面,大模型的持續(xù)升級也會給應(yīng)用帶來挑戰(zhàn)和機遇。由于大模型每月、每季度都在更新升級,應(yīng)用在其原有基礎(chǔ)上的改進可能很快被新版本大模型所替代和覆蓋,即大模型操作系統(tǒng)和應(yīng)用的“邊界”尚未確定,大模型不斷嘗試做應(yīng)用的功能,應(yīng)用則補上當前版本大模型的“短板”,降低消費者使用門檻。

因此,應(yīng)用開發(fā)商加深行業(yè)應(yīng)用“護城河”的同時,可尋求與大模型的解耦,或提供跨多個大模型的統(tǒng)一服務(wù)入口、一站式用戶開發(fā)環(huán)境,并尋找產(chǎn)業(yè)中最具盈利潛力的商業(yè)路徑。

這樣一來,即便大模型升級,應(yīng)用也能迅速跟上或匹配更優(yōu)競爭力的其他模型,保持應(yīng)用層對私域用戶的競爭力。但長遠來看,應(yīng)用開發(fā)者依舊會逐漸趨向使用更為穩(wěn)定、功能強大的頭部大模型底座。

圍繞算力問題,田豐表示,目前,我們正處于人工智能時代的算力初期階段,算力成本仍然較高,只有大型企業(yè)能夠負擔。然而,隨著國產(chǎn)AI芯片、國產(chǎn)超大規(guī)模AI智算中心技術(shù)的不斷進步,算力成本就會逐漸降低,每個人也能接近以免費的方式享用新一代人工智能的科技紅利。龐大市場的吸引力,將倒逼AI模型架構(gòu)和AI算力集群架構(gòu)的深刻變化。

因此,田豐認為,當前正處于AI計算大變革的前夜。他表示,當AI算力成本降至拐點時,社會需求量與用戶規(guī)模將會迅速飆升,助推全民AI創(chuàng)業(yè)熱潮,普通用戶會發(fā)現(xiàn)算力成本已經(jīng)逐步平攤到廣告成本或交易成本里。“科技發(fā)展史證明智能產(chǎn)業(yè)普及期是這樣的,但怎么會發(fā)生?就要回到新一代人工智能基礎(chǔ)研發(fā)的路徑上,要找到新的踏腳石,一步一步走過去。”

如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權(quán),嚴禁轉(zhuǎn)載或鏡像,違者必究。

讀者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。

模型 大模型 創(chuàng)新

歡迎關(guān)注每日經(jīng)濟新聞APP

每經(jīng)經(jīng)濟新聞官方APP

0

0

免费va国产高清不卡大片,笑看风云电视剧,亚洲黄色性爱在线观看,成人 在线 免费