每日經(jīng)濟新聞

今日報紙

每經(jīng)網(wǎng)首頁 > 今日報紙 > 正文

專訪商湯智能產(chǎn)業(yè)研究院院長田豐：推動“冰山之下”的大模型技術(shù)創(chuàng)新探索

每日經(jīng)濟新聞 2024-03-17 23:29:53

每經(jīng)記者可楊每經(jīng)編輯文多

錢學(xué)森在《從飛機、導(dǎo)彈說到生產(chǎn)過程的自動化》一書中寫下：“用機器代替人的體力勞動，是第一次工業(yè)革命，即機械化；用機械系統(tǒng)來替人作非創(chuàng)造性的腦力勞動，是第二次工業(yè)革命，即自動化。”

3月15日，由工業(yè)和信息化部工業(yè)文化發(fā)展中心牽頭成立的AI應(yīng)用工作組主辦，每日經(jīng)濟新聞承辦、數(shù)智未來場景實驗室協(xié)辦的“Sora的啟示：AI應(yīng)用再飛躍”主題沙龍活動在京成功舉辦。

活動期間，商湯智能產(chǎn)業(yè)研究院院長田豐在接受《每日經(jīng)濟新聞》記者專訪時提到，當(dāng)前我們正在經(jīng)歷“機械化”到“自動化”階段。

大模型，是人類邁向自動化的關(guān)鍵基礎(chǔ)設(shè)施。隨著Sora的推出，圍繞大模型的競爭繼續(xù)提速。就Sora帶來的啟示、智能基礎(chǔ)設(shè)施的建設(shè)、算力的普惠之路，《每日經(jīng)濟新聞》記者與田豐展開對話。

田豐認為，我們既要借鑒OpenAI的“踏腳石理論”，同時也要學(xué)習(xí)錢學(xué)森所推崇的科研要遵循“冰山理論”。“我們不能只看水面上，別人做到哪兒，我們就馬上去跟，也要看到水面之下應(yīng)該怎么走。”田豐表示。

Sora的啟示：尋找踏腳石

Scaling Laws（尺度定律），指的是模型訓(xùn)練計算量、訓(xùn)練數(shù)據(jù)規(guī)模、模型參數(shù)量與模型效能之間的正相關(guān)關(guān)系，一個更通俗的說法是“大力出奇跡”。

“Sora雖然不完美并且處于早期階段，但它確實是尺度定律的又一次驗證，也是一個大模型工程化的進展。”在田豐看來，Sora的誕生，首先代表著尺度定律的又一次成功。

田豐指出，Sora所采用的Diffusion Transformer（DiT）架構(gòu)，是多種已有架構(gòu)之間的工程化融合，故而具備Diffusion（擴散）等架構(gòu)的長處，也不可避免地帶有一些缺陷。目前，全球范圍內(nèi)的研究者同時在探索不同架構(gòu)方向。田豐將這種探索比喻為一棵科技樹，Sora是在其中某一條路徑上領(lǐng)先，而其他研究者會在其他路徑上積極探索，最終互相借鑒，讓AI基礎(chǔ)科研更快發(fā)展。

田豐認為，Sora所帶來的另一個啟示是，Sora是OpenAI邁向AGI（人工通用智能）的“踏腳石”。

“新奇事物的重要性在于，它們往往可以成為踏腳石探測器，因為任何新奇的東西，都是催生更新奇事物的潛在踏腳石。”OpenAI科學(xué)家在其撰寫的《為什么偉大不能被計劃》一書中，提到了“踏腳石”。

在專訪中，田豐也反復(fù)提及“踏腳石理論”。他表示，在基礎(chǔ)研發(fā)中，想達到A點，有可能需要往反方向走到B點，進而再到達A點。因為創(chuàng)造力是一種“搜索”，基礎(chǔ)研發(fā)是在龐大“解空間”中通過多個路徑深入探索，而無法完全通過目標找到最短的直線。“怎么去定義踏腳石，就是一定要有新奇性。”

田豐表示，基于這個理論，中國技術(shù)研發(fā)也要找到更多踏腳石。“你有更多的踏腳石之后，就能發(fā)現(xiàn)跨領(lǐng)域、跨學(xué)科的相關(guān)性，上面‘長’出的基礎(chǔ)研發(fā)突破就會更多。”

除此之外，田豐同樣談到錢學(xué)森所推崇的“科研遵循‘冰山理論’”，即人們看到的AI“技術(shù)突變”只是水面之上的“冰山一角”，水面之下還有更多“隱藏創(chuàng)新”在支撐。“我們不能只看水面上，別人做到哪兒，我們就馬上去跟，也要看到水面之下基礎(chǔ)科研布局，應(yīng)該怎么走。”

那在大模型競爭中，水面之下的技術(shù)應(yīng)該如何挖掘？

田豐認為，目前大家有不同的探索方向。例如，自動駕駛的大模型旨在模擬現(xiàn)實世界，實現(xiàn)自動駕駛的仿真，并通過神經(jīng)網(wǎng)絡(luò)來完成感知、決策、執(zhí)行及反饋等任務(wù)。而特斯拉將自動駕駛模式遷移到人形機器人上。于是，人形機器人的出現(xiàn)，又可以進一步作為數(shù)據(jù)和反饋來源，驗證基礎(chǔ)大模型對現(xiàn)實世界的認知誤差、糾正幻覺。

當(dāng)前對于大模型的驗證還依賴于人類反饋強化學(xué)習(xí)（Reinforcement Learning from Human Feedback，簡稱 RLHF），而這面臨反饋速度慢、成本高以及人的自身認知偏差等問題。因此，科研界同樣在嘗試采用“具身智能”等其他新研究方向，以在復(fù)雜多變的物理世界環(huán)境中直接驗證機器智能，讓人工智能不再局限于對人的模仿，而是更直接地探索世界、糾偏認知。

“通往AGI的路，絕對不是只有一條。”田豐認為，基于這樣多元化的探索，才會有可能逐步到達AGI。而單純依靠模仿人類思考方式的大模型，對于極為復(fù)雜的整個物理世界，尤其是人類已知知識以外的更大的知識領(lǐng)域是無法去探索的。正如錢學(xué)森所說——“Nothing is Final”，現(xiàn)在認為正確的人類知識，在下一個時代看來就會具有局限性和偏差。

數(shù)據(jù)競速：AI合成數(shù)據(jù)大有可為

對于通用大模型而言，尺度定律（Scaling Laws），有沒有可能在某一階段失效？

“（在）訓(xùn)練數(shù)據(jù)用光時”——這是田豐的答案。

田豐認為，數(shù)據(jù)多模態(tài)非常重要。“文字語言具有最高的知識密度，但是光有文字語言也不夠，視覺和語言的融合也很重要。”他表示，純視覺學(xué)習(xí)未必會學(xué)到物理之間的因果關(guān)系，視覺加語言的數(shù)據(jù)，會帶來更好的訓(xùn)練效果，讓大模型能夠理解復(fù)雜環(huán)境、復(fù)雜任務(wù)中的表征和表意內(nèi)容，也能讓Sora現(xiàn)在存在的一些物理上的混亂，得到改善。

從數(shù)據(jù)層面看，田豐認為，目前存在多個潛在的訓(xùn)練數(shù)據(jù)增長點。

首要的是人們?nèi)粘Ｊ褂玫膽?yīng)用。例如微博，每日有2.6億用戶在微博發(fā)帖，這為模型訓(xùn)練提供了豐富的增量數(shù)據(jù)。其次，具身智能的傳感技術(shù)，同樣能夠提供數(shù)據(jù)增量，例如自動駕駛汽車和人形機器人都是數(shù)據(jù)收集器。此外，商湯目前的衛(wèi)星遙感智能解譯技術(shù)，能夠觀察地球物理環(huán)境每一天發(fā)生的多維度變化，同樣提供了大量的數(shù)據(jù)資源。

當(dāng)現(xiàn)實世界產(chǎn)生的數(shù)據(jù)仍舊不足時，就需要同時在AI合成數(shù)據(jù)層面進行科研探索。田豐介紹，目前，合成數(shù)據(jù)仍處于前期階段，生成的數(shù)據(jù)質(zhì)量參差不齊。業(yè)界期待多模態(tài)大模型不僅能輸入多模態(tài)數(shù)據(jù)，同時還能產(chǎn)出接近真實世界的高質(zhì)量多模態(tài)數(shù)據(jù)。

但當(dāng)前，如果視頻數(shù)據(jù)自動標注的描述文字不精準，則會造成“Garbage in，garbage out”（指輸入的垃圾數(shù)據(jù)會導(dǎo)致大模型輸出的垃圾結(jié)果），其風(fēng)險依舊擺在AI合成數(shù)據(jù)面前，各國AI基礎(chǔ)科研團隊正在攻堅。

對此，田豐則認為，業(yè)界都憧憬做成“世界模擬器”，但目前生成的視頻數(shù)據(jù)與真實世界仍有較大距離。Sora所生成的最好的視頻內(nèi)容是“我的世界”游戲視頻，幾乎與玩家實際體驗無異。這得益于OpenAI對“我的世界”游戲公司與游戲引擎的收購。

游戲引擎為了讓玩家感覺更真實，無論是光照、紋理還是人和物體之間的交互，都比較接近現(xiàn)實世界。所以Sora用這樣的訓(xùn)練數(shù)據(jù)來生成，使得大模型能夠從中學(xué)習(xí)并理解游戲中的復(fù)雜因果關(guān)系，進而生成逼真的內(nèi)容。更為重要的是，游戲世界會一直產(chǎn)生大量較低成本的世界仿真數(shù)據(jù)，比從現(xiàn)實中收集要快很多。

“但它（指Sora為代表的大模型）是不是真正理解現(xiàn)實世界、物理世界的所有因果規(guī)律？其實，人類目前仍沒有完全理解和掌握。”田豐繼續(xù)說道，從這個角度而言，合成數(shù)據(jù)很重要的一點是，我們應(yīng)像對抗神經(jīng)網(wǎng)絡(luò)的邏輯一樣，必須有另一個模型驗證合成數(shù)據(jù)與事實的接近程度。

將視線聚焦于當(dāng)前的數(shù)據(jù)競爭態(tài)勢，田豐表示，中國擁有14億人口，每天都在產(chǎn)生海量的數(shù)據(jù)，這就意味著巨大的潛力，我們有能力以更低的成本來采集這些數(shù)據(jù)。此外，中國還擁有106億的物聯(lián)網(wǎng)終端，其中尚未采集到的各類數(shù)據(jù)——如工業(yè)傳感信號等，都是極具價值的資源。若能成功采集到這些數(shù)據(jù)，將成為訓(xùn)練垂類大模型的優(yōu)質(zhì)素材，也能幫助大模型更深入地理解產(chǎn)業(yè)場景中事物之間的因果關(guān)系。此外，在合成數(shù)據(jù)方面，大家也均處于起步階段，還在互相競爭。

田豐認為，人工智能是當(dāng)今社會數(shù)據(jù)資源最大的需求方，若能在數(shù)據(jù)領(lǐng)域構(gòu)建出完善的體制機制，使數(shù)據(jù)成為市場化流通的關(guān)鍵要素，那么便能在數(shù)據(jù)層面持續(xù)推動尺度定律，加速大模型的進步。

如何實現(xiàn)AGI？兩條路徑并行

如何實現(xiàn)AGI？田豐提出兩個方向。從生成智能的角度來看，生成式人工智能正在逐步轉(zhuǎn)向更具創(chuàng)意性的工作，這需要更多大模型的“幻覺”想象力。在這條路徑上，“幻覺”并不是壞事，創(chuàng)作科幻小說、科幻電影就體現(xiàn)出了這一點——想象力在其中扮演著至關(guān)重要的角色。愛因斯坦也曾經(jīng)提出“想象力比知識更為重要”。

另一個方向則更加側(cè)重于科學(xué)和工業(yè)產(chǎn)業(yè)具體問題的解決，這就需要致力于減少幻覺，持續(xù)提高準確度和可靠性，一旦能夠達到人類科學(xué)家、工程師的平均水平，突破“工業(yè)紅線”，大模型就能全面普及到各個行業(yè)產(chǎn)業(yè)和科研領(lǐng)域。

在田豐看來，大模型實則是公共基礎(chǔ)設(shè)施的一部分，是智能基礎(chǔ)設(shè)施，而基礎(chǔ)設(shè)施的特點就是重資產(chǎn)型、重資本型。

在現(xiàn)有情況下，大模型研發(fā)與應(yīng)用是一個長期投資。一方面，基礎(chǔ)模型不能跟進到GPT4，就自認為“領(lǐng)先全球”，另一方面，在國產(chǎn)基礎(chǔ)模型與國際縮小差距的同時，也要積極探索新的發(fā)展方向。“開拓者創(chuàng)造方向，跟隨者選擇方向，領(lǐng)先者并不代表永遠的成功，而可能被具有強大創(chuàng)新能力的跟隨者趕超。”從這一角度看，長周期持續(xù)的人工智能基礎(chǔ)科研、基礎(chǔ)建設(shè)資本投入至關(guān)重要，這也是充分發(fā)揮制度創(chuàng)新的機遇。

盡管資本通常會關(guān)注盈利問題，但也不是絕對，田豐用他在云計算產(chǎn)業(yè)的經(jīng)驗舉了個例子。2012年前后，云計算公司主要的用戶群體是網(wǎng)站站主，且許多是個人網(wǎng)站站主，資金相對匱乏。新一代基礎(chǔ)設(shè)施的早期，是投資與“裝置”期，表象上就是盈利難。

然而，根據(jù)世界銀行《為發(fā)展提供基礎(chǔ)設(shè)施》報告分析，基礎(chǔ)設(shè)施投資、“裝置”期通常需要10年甚至15年，而基礎(chǔ)設(shè)施投資建設(shè)往往伴隨著經(jīng)濟周期的上升階段，當(dāng)基礎(chǔ)設(shè)施建設(shè)成熟，則會持續(xù)產(chǎn)生廣泛普惠的社會全產(chǎn)業(yè)價值。例如當(dāng)前，云計算已經(jīng)逐漸成為企業(yè)和科研通用型技術(shù)，廣泛應(yīng)用于金融、能源、交通等多個領(lǐng)域。因此，人工智能基礎(chǔ)設(shè)施的建設(shè)在前期更多地依賴于國家大基金和大型企業(yè)的投資，類似于高速公路、5G通信網(wǎng)絡(luò)的建設(shè)。這種資本增密的投資模式對于推動新質(zhì)生產(chǎn)力技術(shù)的發(fā)展和新一波經(jīng)濟繁榮至關(guān)重要。

因此，目前我們?nèi)蕴幱诨A(chǔ)設(shè)施建設(shè)階段，為了將來能建成“萬里長城”，先要把地基打好。在基礎(chǔ)設(shè)施的“裝置”期，需要在超大規(guī)模AI算力中心、統(tǒng)一數(shù)據(jù)市場平臺上追加投入，充分挖掘并利用我國的數(shù)據(jù)資源、大市場規(guī)模和科技人才儲備。

如何促進應(yīng)用繁榮？算力普惠是關(guān)鍵

在重資產(chǎn)、重資本型的背景下，對于未來“百模大戰(zhàn)”的終局，田豐用操作系統(tǒng)的競爭來舉例：

“當(dāng)時多家廠商的很多人覺得（操作系統(tǒng)）就是‘大B’的事情，即大模型從頭部大企業(yè)端賺錢。以1981年個人電腦操作系統(tǒng)的‘春秋戰(zhàn)國時期’為例，UCSD Pascal P-System（一種操作系統(tǒng)）單機授權(quán)費高達450美元，CP/M-86（同為一種操作系統(tǒng)）授權(quán)費是175美元，而微軟MSDOS僅向買PC的消費者收60美金，而IBM可免費使用微軟開發(fā)的操作系統(tǒng)，但不能獨占使用權(quán)。

“微軟選擇的差異化戰(zhàn)略是什么？比爾·蓋茨在《未來之路》一書里寫下：‘我們的目標不是要直接從IBM（大企業(yè)）那里賺錢，而是把軟件平臺的特許使用權(quán)出售給個人計算機工業(yè)（所有硬件）的生意。’比爾蓋茨的目標，是計算機的使用接近免費時，自己的操作系統(tǒng)將占有最大市場份額。

“雖然大模型目前還處于企業(yè)級應(yīng)用市場，但伴隨AI芯片算力價格的持續(xù)下降、大模型個人終端涌現(xiàn)，將會呈現(xiàn)大模型操作系統(tǒng)的‘馬太效應(yīng)’，頭部廠商占有最大市場規(guī)模。”

田豐認為，目前大模型的方向并非是向大型企業(yè)收取高額費用，而是應(yīng)當(dāng)通過低價、易開發(fā)、快迭代、硬件兼容等競爭策略致力于最大限度搶占市場份額，并積極吸引各類AI新型硬件的支持。只要有越來越多的、不同類型的硬件終端支持同一款大模型，它就能像操作系統(tǒng)一樣受到AI應(yīng)用開發(fā)者的歡迎。而終端硬件選擇大模型，則源于消費者用戶群體的驅(qū)動，而用戶之所以選擇某一款“操作系統(tǒng)”，是因為其上集成了眾多由小微或個人開發(fā)者開發(fā)的長尾大模型應(yīng)用。這是Windows和iOS等頭部操作系統(tǒng)得以成功的原因，也是大模型突破紅海的一條已驗證的戰(zhàn)略路徑。

目前，應(yīng)用所面臨的主要挑戰(zhàn)體現(xiàn)在兩大方面。

首先是算力成本問題。若算力成本持續(xù)高價，長期來看，必然會抑制大模型應(yīng)用創(chuàng)新的蓬勃發(fā)展，就像互聯(lián)網(wǎng)APP早期不是靠用戶每月交納30美元會員費，而是以近乎免費的使用權(quán)拉動新用戶“嘗鮮”。

因此，AI芯片行業(yè)勢必不斷降低成本，并通過智算中心架構(gòu)創(chuàng)新推動AI云算力的普及化、全民化。若GPU領(lǐng)域不進行快速改革，業(yè)界勢必出現(xiàn)新一代的芯片產(chǎn)品、計算力架構(gòu)，以降低成本并促進AI應(yīng)用的廣泛發(fā)展。

另一方面，大模型的持續(xù)升級也會給應(yīng)用帶來挑戰(zhàn)和機遇。由于大模型每月、每季度都在更新升級，應(yīng)用在其原有基礎(chǔ)上的改進可能很快被新版本大模型所替代和覆蓋，即大模型操作系統(tǒng)和應(yīng)用的“邊界”尚未確定，大模型不斷嘗試做應(yīng)用的功能，應(yīng)用則補上當(dāng)前版本大模型的“短板”，降低消費者使用門檻。

因此，應(yīng)用開發(fā)商加深行業(yè)應(yīng)用“護城河”的同時，可尋求與大模型的解耦，或提供跨多個大模型的統(tǒng)一服務(wù)入口、一站式用戶開發(fā)環(huán)境，并尋找產(chǎn)業(yè)中最具盈利潛力的商業(yè)路徑。

這樣一來，即便大模型升級，應(yīng)用也能迅速跟上或匹配更優(yōu)競爭力的其他模型，保持應(yīng)用層對私域用戶的競爭力。但長遠來看，應(yīng)用開發(fā)者依舊會逐漸趨向使用更為穩(wěn)定、功能強大的頭部大模型底座。

圍繞算力問題，田豐表示，目前，我們正處于人工智能時代的算力初期階段，算力成本仍然較高，只有大型企業(yè)能夠負擔(dān)。然而，隨著國產(chǎn)AI芯片、國產(chǎn)超大規(guī)模AI智算中心技術(shù)的不斷進步，算力成本就會逐漸降低，每個人也能接近以免費的方式享用新一代人工智能的科技紅利。龐大市場的吸引力，將倒逼AI模型架構(gòu)和AI算力集群架構(gòu)的深刻變化。

因此，田豐認為，當(dāng)前正處于AI計算大變革的前夜。他表示，當(dāng)AI算力成本降至拐點時，社會需求量與用戶規(guī)模將會迅速飆升，助推全民AI創(chuàng)業(yè)熱潮，普通用戶會發(fā)現(xiàn)算力成本已經(jīng)逐步平攤到廣告成本或交易成本里。“科技發(fā)展史證明智能產(chǎn)業(yè)普及期是這樣的，但怎么會發(fā)生？就要回到新一代人工智能基礎(chǔ)研發(fā)的路徑上，要找到新的踏腳石，一步一步走過去。”

如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權(quán)，嚴禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

模型大模型創(chuàng)新

上一篇文章

每經(jīng)熱評丨天海防務(wù)起訴并購案賣家甩手式并購沒有“后悔藥”

返回每經(jīng)網(wǎng)首頁

下一篇文章

生成式AI如何尋求進一步突破？北京航空航天大學(xué)巢文涵：調(diào)用和激發(fā)AI潛力

相關(guān)文章

熱文精選

點擊排行

歡迎關(guān)注每日經(jīng)濟新聞APP

每經(jīng)經(jīng)濟新聞官方APP

關(guān)注我們
辟謠專區(qū)

加入我們
招聘專頁

Copyright ? 2025 每日經(jīng)濟新聞報社版權(quán)所有，未經(jīng)許可不得轉(zhuǎn)載使用，違者必究。

廣告熱線? 北京: 010-57613265，?上海: 021-61283008，?廣州: 020-84201861，?深圳: 0755-83520159，?成都: 028-86512112

網(wǎng)絡(luò)社會征信網(wǎng)

兒童色情信息舉報專區(qū)

成都市互聯(lián)網(wǎng)不良與違法信息舉報中心

四川省互聯(lián)網(wǎng)舉報中心

中國互聯(lián)網(wǎng)舉報中心

每日經(jīng)濟新聞互聯(lián)網(wǎng)不良與違法信息舉報中心

互聯(lián)網(wǎng)新聞信息服務(wù)許可證：51120190017 網(wǎng)站備案號：蜀ICP備19004508號-3 川公網(wǎng)安備 51019002002026號

新聞職業(yè)道德監(jiān)督熱線：400 889 0008 郵箱：zbb@nbd.com.cn

免费va国产高清不卡大片,笑看风云电视剧,亚洲黄色性爱在线观看,成人在线免费