每日經(jīng)濟(jì)新聞 2023-04-24 14:37:16
◎ 當(dāng)大廠跑出自己的路子,小企業(yè)就有機(jī)會站在巨人的肩膀上。
每經(jīng)記者 李孟林 蘭素英 文巧 每經(jīng)編輯 蘭素英
ChatGPT的火爆帶動了國內(nèi)對大語言模型的開發(fā)熱潮。從百度3月份發(fā)布“文心一言”以來,不到兩個月,國內(nèi)互聯(lián)網(wǎng)大廠、AI企業(yè)和初創(chuàng)團(tuán)隊陸續(xù)官宣了約10個大模型項目。此番熱鬧場景讓不少人感慨:自從“千團(tuán)大戰(zhàn)”之后,中國互聯(lián)網(wǎng)產(chǎn)業(yè)已經(jīng)有十年沒有如此“卷”過了。
面對英偉達(dá)CEO黃仁勛所謂的AI“iPhone”時刻,沒有人愿意被甩在“大模型時代”的浪潮身后。然而,“煉大模型”需要的是天量的算力支持和資金投入,據(jù)悉,僅硬件上的投資就需要30億元,這無疑考驗著參與者的資金實力和戰(zhàn)略定力。
AI大模型最終將是大廠之間的“游戲”嗎?中小企業(yè)的機(jī)會又在哪里?《每日經(jīng)濟(jì)新聞》采訪了多家互聯(lián)網(wǎng)大廠、逐浪AI的創(chuàng)業(yè)者及行業(yè)人士,一窺這場競速賽中的發(fā)展現(xiàn)狀。
隨著ChatGPT的現(xiàn)象級爆紅,國內(nèi)科技領(lǐng)域的創(chuàng)業(yè)熱情也被點燃。一時間,打造“中國版OpenAI”和類ChatGPT產(chǎn)品成為最熱門的話題和趨勢。
互聯(lián)網(wǎng)大廠自然不會錯失這樣的機(jī)遇。百度已率先推出“文心一言”,阿里巴巴發(fā)布“通義千問”,華為也介紹了“盤古”大模型的最新進(jìn)展……
據(jù)《每日經(jīng)濟(jì)新聞》記者的不完全統(tǒng)計,今年3月~4月,已經(jīng)約有10家企業(yè)及機(jī)構(gòu)發(fā)布大模型或啟動大模型測試邀請。接下來,蓄勢待發(fā)的還有騰訊的“混元”、京東的“言犀”、字節(jié)跳動的自研大模型等一系列大模型。
大廠之外,還有許多重量級科技大佬也已高調(diào)入局。原美團(tuán)聯(lián)合創(chuàng)始人王慧文、前搜狗CEO王小川、創(chuàng)新工場董事長兼首席執(zhí)行官李開復(fù)等相繼成立初創(chuàng)公司,投身AI大模型創(chuàng)業(yè)。
圖片來源:每經(jīng)記者 蘭素英制圖
一場“百模大戰(zhàn)”就此在國內(nèi)全面拉開序幕。
一名不愿具名的硅谷大模型工程師認(rèn)為,國內(nèi)現(xiàn)在的大模型領(lǐng)域有點過熱。“在海外,搞大模型的其實就那么幾家。在國內(nèi),競爭對手的數(shù)量是美國的幾倍,而市場就這么大。”他告訴《每日經(jīng)濟(jì)新聞》記者。
這種熱到發(fā)燙的形勢也讓許多人質(zhì)疑,蜂擁的投入能不能在商業(yè)價值上帶來回報。長期關(guān)注芯片產(chǎn)業(yè)的集微咨詢資深分析師錢禹對《每日經(jīng)濟(jì)新聞》記者表示,“我個人覺得是有機(jī)會的,因為現(xiàn)在的AIGC(AI生成內(nèi)容)產(chǎn)品的準(zhǔn)確性和效率的優(yōu)勢是非常明顯的。”他認(rèn)為,互聯(lián)網(wǎng)和AI的商業(yè)模式靈活度很高,未來既可做API或者SDK開發(fā)包的授權(quán),也可以參與硬件業(yè)務(wù),探索to B和to C的服務(wù)。
圖片來源:阿里云提供
隨著眾多玩家“入局”大模型研發(fā),一場關(guān)于算力的爭奪戰(zhàn)也打響了。
在業(yè)內(nèi),開發(fā)大語言模型被戲稱為“煉大模型”,是一個“大力出奇跡”的模式,指的就是依靠巨大算力訓(xùn)練海量數(shù)據(jù)后“涌現(xiàn)”出的對答如流能力。ChatGPT的成功就得益于微軟慷慨的資金和算力支持。美國市場研究機(jī)構(gòu)TrendForce推算稱,處理ChatGPT的訓(xùn)練數(shù)據(jù)需要2萬枚GPU芯片,而隨著OpenAI進(jìn)一步展開ChatGPT和其他GPT模型的商業(yè)應(yīng)用,其GPU需求量將突破3萬張(該報告計算以A100芯片為主)。
行業(yè)人士普遍認(rèn)為,1萬顆A100芯片是訓(xùn)練大模型的入門券。馬斯克4月17日表示,他要開發(fā)一款名為“TruthGPT”的AI模型,叫板ChatGPT。據(jù)外媒報道,馬斯克已經(jīng)為搭建大模型購入了1萬張A100芯片。
“現(xiàn)在(國內(nèi)大模型廠商面臨的)問題是買不到芯片。對于目前訓(xùn)練大模型的主流芯片,例如英偉達(dá)GPU A100和(更新一代的)GPT H100,市場上所有的公司都在搶貨。一個公司能搶到多少?”上述硅谷工程師反問道,“國內(nèi)真正有萬卡級別的公司是鳳毛麟角。”
據(jù)此前媒體報道,國內(nèi)擁有超過1萬枚GPU的企業(yè)不超過5家,且多為英偉達(dá)中低性能產(chǎn)品,而擁有1萬枚A100芯片的企業(yè)最多只有一家。
在A100這樣的“香餑餑”短缺的情況下,英偉達(dá)在國內(nèi)市場推出了A100的低配版A800和專為ChatGPT研發(fā)的H100芯片的“特供版”芯片H800,但A800和H800的數(shù)據(jù)傳輸速率相比A100分別下降了30%和50%。有業(yè)內(nèi)人士對媒體表示,H800國內(nèi)已經(jīng)少量出貨,但新近下的訂單可能要年底才能到貨。
互聯(lián)極簡聯(lián)合創(chuàng)始人&CTO馬力遙告訴《每日經(jīng)濟(jì)新聞》記者,目前市場上有一些存量A100芯片,更多的是用A800在做芯片替代。他所在的公司就專注于應(yīng)用私有數(shù)據(jù)微調(diào)大模型,服務(wù)垂直行業(yè)。錢禹估計,國內(nèi)的互聯(lián)網(wǎng)公司或算法公司之前肯定對英偉達(dá)芯片做了儲備,不過具體數(shù)量不好量化。
百度、阿里等大廠以及國內(nèi)芯片廠商也在自研芯片,但錢禹指出,目前這些自研芯片主要還是部署在大模型的推理階段,而非要求更高的訓(xùn)練階段。
即便市場上芯片供應(yīng)充足,但也不是每個入局者都能玩得起的,擋在他們面前的不僅是高昂的成本,還有協(xié)同發(fā)揮硬件設(shè)施的能力。
圖片來源:每經(jīng)記者蘭素英制圖
1)燒錢的GPU
取決于購買量和英偉達(dá)的折扣政策,一顆80GB的A100芯片在國外的定價為1萬~1.5萬美元(約合人民幣68800~103300元)之間。
《每日經(jīng)濟(jì)新聞》記者注意到,目前京東售賣的的80GB A800芯片價格為89999元(約13079美元),而庫存僅剩數(shù)張。有媒體報道稱,實際上A800現(xiàn)在處于“有價無市”的情況,供應(yīng)緊張,真實成交價格高于平臺報價。即便按89999元一顆A800芯片的價格計算,1萬顆的成本就是約人民幣9億元。
更重要的是,這還只是GPU芯片部分的成本,并非全部的硬件投入花費。錢禹對《每日經(jīng)濟(jì)新聞》記者指出,除GPU外,建設(shè)數(shù)據(jù)中心還需要ASIC或FPGA類專用芯片、服務(wù)器CPU芯片,以及服務(wù)于分布式訓(xùn)練硬件架構(gòu)的光模塊通信芯片。搭建一臺服務(wù)器,刨除GPU芯片成本,還需要3萬元到4萬元的成本。據(jù)估算,一臺服務(wù)器多由8顆GPU組成,那1萬顆GPU就意味著1250臺服務(wù)器,所涉及的GPU之外的成本就還需要3750萬~5000萬元。
業(yè)內(nèi)估計,服務(wù)器的采購成本通常為數(shù)據(jù)中心建設(shè)成本的30%,按此推算,一個服務(wù)于大模型的數(shù)據(jù)中心建設(shè)成本或超過30億元。
2)不只是GPU
構(gòu)建大模型的計算基礎(chǔ)設(shè)施,不僅是簡單的硬件堆砌,更需要實際搭建過程中積累的know-how(實踐知識)。
“大模型訓(xùn)練離不開密集型計算算力,今天模型的訓(xùn)練往往會以有多少張卡來表示背后的算力,其實這是一個非常簡單的描述,”阿里云CTO周靖人對《每日經(jīng)濟(jì)新聞》記者表示。
他進(jìn)一步指出,“所有GPU不是簡簡單單的堆砌,更需要的是讓所有GPU,讓異構(gòu)算力能夠聯(lián)合起來去為我們的模型訓(xùn)練服務(wù)。我們有成千上萬的模塊,如何幫助他們有效地高速連接起來,如何能夠提供一個高吞吐、低延遲的網(wǎng)絡(luò)方案,對模型訓(xùn)練是至關(guān)重要的。”此外,完善的大規(guī)模的數(shù)據(jù)存儲和低延遲的網(wǎng)絡(luò)方案同樣重要。
前述硅谷工程師也認(rèn)為,就算是現(xiàn)在市面上能直接商業(yè)化買到的最強(qiáng)算力策略,也很難建設(shè)一個特別大的計算機(jī)群,因為連接芯片用的是電,而電的衰減很快,一般來說只能達(dá)到百卡互聯(lián)的量級。
“如果是距離較近的芯片連接,你可能感受不到損耗;但如果距離稍微遠(yuǎn)一點,例如說機(jī)器在10米遠(yuǎn)的地方,想把兩個卡連在一起,電的損耗實際上是非常大的。”他對記者解釋稱。
3) 訓(xùn)練和運營成本
硬件搭建完成后,大模型的訓(xùn)練花費也不菲。馬力遙對記者透露,訓(xùn)練大模型門檻非常高,GPT-4的訓(xùn)練成本據(jù)估計達(dá)到了10億美元,是GPT-3的5倍。在他看來,大模型的訓(xùn)練絕對是少數(shù)人的游戲。
此外,錢禹還指出,若芯片性能不足,那模型的訓(xùn)練效率就會受到巨大影響。“比如一個大模型,用英偉達(dá)可能一個月就訓(xùn)練好了,但如果訓(xùn)練卡算力沒有人家那么好,那訓(xùn)練三個月或者半年都是有可能的。”而如果要加快訓(xùn)練速度,電力消耗就會攀升。
原騰訊副總裁、自然語言模型專家吳軍此前就在一次直播分享中形象地描繪了大模型訓(xùn)練中的電力成本:ChatGPT訓(xùn)練一次需要耗費的電量,相當(dāng)于3000輛特斯拉電動車每輛跑20萬英里(32萬公里)的耗電量。
一旦推出,每天的用戶訪問也需要大量算力支撐。相比訓(xùn)練階段,大規(guī)模運營的推理階段對算力要求更高。
半導(dǎo)體研究公司SemiAnalysis認(rèn)為,ChatGPT大規(guī)模服務(wù)用戶的成本遠(yuǎn)超訓(xùn)練成本,以GPT-3模型推算,ChatGPT每天的運營成本高達(dá)70萬美元,新一代的GPT-4模型只會更燒錢。按每日70萬美元計算,則ChatGPT一年的運營成本高達(dá)2.555億美元(約17.6億人民幣)。
國盛證券則從電費角度進(jìn)行了分析,以英偉達(dá)A100芯片、DGX A100服務(wù)器、現(xiàn)階段每日2500萬訪問量等假設(shè)為基礎(chǔ),ChatGPT的初始投入成本約為8億美元(約合人民幣55億元),對應(yīng)約4000臺服務(wù)器,每日運行電費約為5萬美元。
這還沒算人力成本,高昂的投資意味著只有手握云計算、數(shù)據(jù)資源和資金實力的幾家大廠才能承擔(dān)開發(fā)大模型的成本。
圖片來源:視覺中國-VCG41N1356593648
實際上,在巨額的投入面前,部分一開始激動不已的創(chuàng)業(yè)者也逐漸冷靜。
出門問問創(chuàng)始人、前谷歌科學(xué)家李志飛曾在2月份第一個喊出做中國OpenAI的口號,但在近期的采訪中,他已經(jīng)轉(zhuǎn)變思路,放棄了從零開始“煉大模型”的思路。他在一次采訪中提到, “兩個月以前,我就是要復(fù)制ChatGPT,但現(xiàn)在我覺得不想清楚商業(yè)模式到最后會很痛苦。”
那在這場AI“軍備賽”中,各路玩家的機(jī)會在哪里?
馬力遙告訴《每日經(jīng)濟(jì)新聞》記者,大模型產(chǎn)業(yè)主要分為三大塊:最底層是芯片,中間是大模型,最上面是大模型的開發(fā)應(yīng)用。
圖片來源:每經(jīng)記者 蘭素英制圖(資料整理自采訪內(nèi)容)
英國工程技術(shù)協(xié)會會員、Frelan GPT的開發(fā)者張冶對《每日經(jīng)濟(jì)新聞》記者表示, “在日新月異的AI行業(yè),每個層級的廠商都有著自己的任務(wù)和使命。頭部的廠商有著大量的財力人力,應(yīng)該專注在核心技術(shù)的研發(fā)以及算法的迭代,把大部分的精力用于應(yīng)對國際上激烈的競爭。中小型企業(yè)應(yīng)著重技術(shù)應(yīng)用,并且靈活的方式應(yīng)對活躍的市場,并反哺頭部大廠。”
當(dāng)大廠跑出自己的路子,小企業(yè)就有機(jī)會站在巨人的肩膀上。前述硅谷工程師以MidJourney為例解釋說,“MidJourney實際上是一個非常小的公司。新時代的公司不會說‘賣漢堡是從養(yǎng)牛做起’,我們都是基于一個平臺,上面接亞馬遜云等,站在巨人的肩膀上,能以很快的速度就做很多的事情,獲得高關(guān)注度和高收益。”
4月20日,出門問問發(fā)布了自家的百億參數(shù)級的多模態(tài)大模型“序列猴子”。李志飛表示,未來公司將聚焦在算法層面的研發(fā)和迭代,不做硬件,在商業(yè)化上側(cè)重于面向B端的企業(yè)定制類服務(wù),“這會比一個通用大模型可能更加有用。”
目前,在大模型上走在前列的大廠,也在積極推動把自己的算力和模型開放給第三方企業(yè)使用,從而降低中小企業(yè)開發(fā)模型的成本,一個分工有序的大模型生態(tài)正在形成之中。阿里云和商湯科技就對《每日經(jīng)濟(jì)新聞》記者表示,他們可為企業(yè)提供大模型服務(wù)或算力服務(wù),騰訊和字節(jié)跳動近期也推出了面向大模型開發(fā)的算力服務(wù)。
錢禹認(rèn)為,像王小川和王惠文這樣的創(chuàng)業(yè)團(tuán)隊,可以把精力放在算法和模型上,服務(wù)器硬件和訓(xùn)練數(shù)據(jù)可以找合作伙伴,“比如說我給阿里提需求,我需要這樣的服務(wù)器和這樣的算力,你來給我配置。”
另一方面,中小企業(yè)也可以利用大廠的模型做二次開發(fā)。“比如說文言文的研究我是比較專業(yè)的,那我可能把百度的模型拿來借鑒一下,在此基礎(chǔ)上做一個深度開發(fā),然后實現(xiàn)文言文的聊天,這是完全可以的。”錢禹表示。
專注垂直行業(yè)的馬力遙對此也深以為然。
他告訴《每日經(jīng)濟(jì)新聞》記者,初創(chuàng)企業(yè)可根據(jù)其核心能力和市場地位選擇創(chuàng)業(yè)方向,只要掌握私有數(shù)據(jù)和充沛的業(yè)務(wù)知識,仍可打造其行業(yè)壁壘。他強(qiáng)調(diào),要在應(yīng)用層實現(xiàn)突破,一定要把握垂直行業(yè)企業(yè)客戶的痛點,有的放矢,一定要具備私有的高質(zhì)量數(shù)據(jù)、對大模型能力的充分利用能力和對行業(yè)的深刻理解,有效結(jié)合這三者才能產(chǎn)生實實在在的商業(yè)價值。
“一個再聰明的孩子,如果沒有高質(zhì)量的數(shù)據(jù)教導(dǎo),也是不可能成材的。例如Stack Overflow,OpenAI就是用這個平臺上的高質(zhì)量數(shù)據(jù)來訓(xùn)練代碼的生成。”前述硅谷工程師也對記者如是說道。
更重要的是,利用垂直領(lǐng)域數(shù)據(jù)對大模型微調(diào)的成本已經(jīng)達(dá)到中小企業(yè)可以接受的范圍。馬力遙以開源聊天機(jī)器人 Vicuna-13B為例對記者解釋道,這款通過 LLaMA 模型微調(diào)和 ShareGPT 用戶共享對話訓(xùn)練而成的機(jī)器人的訓(xùn)練成本僅為 300 美元(約合人民幣 2060 元),而質(zhì)量可達(dá) OpenAI ChatGPT 和 Google Bard 的 90% 以上。
封面圖片來源:視覺中國-VCG41N1356593648
如需轉(zhuǎn)載請與《每日經(jīng)濟(jì)新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP