每日經(jīng)濟(jì)新聞 2024-04-29 10:39:02
◎4月28日,中國(guó)移動(dòng)2024算力網(wǎng)絡(luò)大會(huì)在蘇州開幕?!睹咳战?jīng)濟(jì)新聞》記者在現(xiàn)場(chǎng)注意到,會(huì)上,中國(guó)工程院院士鄭緯民提到,目前有三類系統(tǒng)可支持大模型訓(xùn)練?;谟ミ_(dá)GPU的系統(tǒng)一卡難求;基于國(guó)產(chǎn)AI芯片的系統(tǒng)仍面臨國(guó)產(chǎn)卡應(yīng)用不足、生態(tài)系統(tǒng)有待改善的問題,可通過十個(gè)軟件來進(jìn)行改善;基于超級(jí)計(jì)算機(jī)的系統(tǒng),可在做好軟硬件協(xié)同設(shè)計(jì)的情況下實(shí)現(xiàn)大模型訓(xùn)練,但需在超算機(jī)器尚未飽和的前提下操作。
每經(jīng)記者 楊卉 每經(jīng)編輯 楊夏
4月28日,中國(guó)移動(dòng)2024算力網(wǎng)絡(luò)大會(huì)在蘇州開幕?!睹咳战?jīng)濟(jì)新聞》記者在現(xiàn)場(chǎng)注意到,會(huì)上,中國(guó)工程院院士鄭緯民提到,目前有三類系統(tǒng)可支持大模型訓(xùn)練。
其中,基于英偉達(dá)GPU的系統(tǒng)一卡難求;基于國(guó)產(chǎn)AI芯片的系統(tǒng)仍面臨國(guó)產(chǎn)卡應(yīng)用不足、生態(tài)系統(tǒng)有待改善的問題,可通過十個(gè)軟件來進(jìn)行改善;基于超級(jí)計(jì)算機(jī)的系統(tǒng),可在做好軟硬件協(xié)同設(shè)計(jì)的情況下實(shí)現(xiàn)大模型訓(xùn)練,但需在超算機(jī)器尚未飽和的前提下操作。整體來看,盡管打造國(guó)產(chǎn)A1卡的萬卡大模型訓(xùn)練平臺(tái)難度不小,但十分必要。
鄭緯民提出,近兩年來人工智能的發(fā)展導(dǎo)致算力需求呈爆發(fā)性增長(zhǎng),其中模型研發(fā)需要配套算力;模型訓(xùn)練需要海量算力,如訓(xùn)練GPT-4需要一萬塊英偉達(dá)A100芯片跑上11個(gè)月;模型精調(diào)需要可控算力;模型推理需要可靠算力,算力存在于大模型生命周期的每一環(huán)。
然而,海量算力背后有一個(gè)很現(xiàn)實(shí)的問題:貴。根據(jù)鄭緯民計(jì)算,在大模型訓(xùn)練的過程中,70%的開銷要花在算力上;推理過程中95%的花費(fèi)也是在算力上,人工智能產(chǎn)業(yè)算力成本居高不下。
鄭緯民進(jìn)一步指出,要構(gòu)建基于國(guó)產(chǎn)AI卡的萬卡大模型訓(xùn)練平臺(tái),需要考慮到幾個(gè)問題。首先是半精度運(yùn)算性能與雙精度運(yùn)算性能的平衡問題。鄭緯民強(qiáng)調(diào),在設(shè)計(jì)過程中,不僅要考慮半精度運(yùn)算性能,還要考慮雙精度運(yùn)算能力,雙精度與半精度運(yùn)算性能之比為1∶50—1∶100為宜。“不論是自己做還是買,第一件事情就是問比例是多少。”
第二點(diǎn)是網(wǎng)絡(luò)平衡設(shè)計(jì)。
鄭緯民解釋稱,萬卡系統(tǒng)中的萬塊卡不能分散在各地,將其連接起來就是所謂的網(wǎng)絡(luò)。但連接也很有“講究”,每塊卡之間能實(shí)現(xiàn)直連是最好的狀態(tài)。但如此一來,每塊AI卡都需插上9999塊連接卡,一萬塊AI芯片均要實(shí)現(xiàn)直連,所需的連接卡數(shù)量太過龐大,成本甚至還要高過萬塊卡本身。此外,即便資金充足,卡槽數(shù)量也無法滿足需求。因此,網(wǎng)絡(luò)設(shè)計(jì)不能只針對(duì)CNN算法,還需考慮極大規(guī)模預(yù)訓(xùn)練模型對(duì)系統(tǒng)的需求。大規(guī)模預(yù)訓(xùn)練模型需要高帶寬低延遲網(wǎng)絡(luò),支持?jǐn)?shù)據(jù)并行,模型并行和專家平行模式。
第三點(diǎn)是體系結(jié)構(gòu)感知的內(nèi)存平衡設(shè)計(jì)。鄭緯民強(qiáng)調(diào),一方面訪問內(nèi)存的請(qǐng)求使網(wǎng)絡(luò)擁塞,降低吞吐量,反映到應(yīng)用程序上表現(xiàn)為訪存性能顯著下降;另一方面,多個(gè)訪問內(nèi)存的請(qǐng)求可能訪問同一存控對(duì)應(yīng)的內(nèi)存空間,負(fù)載不均,存控需要順序處理訪存請(qǐng)求。
第四點(diǎn)是IO子系統(tǒng)平衡設(shè)計(jì)。鄭緯民進(jìn)一步解釋稱,萬卡系統(tǒng)中負(fù)載的芯片數(shù)量太大,即便是英偉達(dá)芯片,也基本會(huì)在三小時(shí)左右出現(xiàn)一次錯(cuò)誤。過去,為保證訓(xùn)練不被中斷,大模型訓(xùn)練廠商通常采用間隔一段時(shí)間,如2.5小時(shí)對(duì)數(shù)據(jù)進(jìn)行一次保存或轉(zhuǎn)移,一旦出現(xiàn)錯(cuò)誤可以不必從0開始,可在保存位置繼續(xù)執(zhí)行。
然而,大模型訓(xùn)練數(shù)量過大,很難沿用上述操作模式。因此,萬卡系統(tǒng)除了支持檢查點(diǎn)操作,還需增加SSD(固態(tài)硬盤)。另外,系統(tǒng)的本地NVMe SSD僅通過本地文件系統(tǒng)訪問,限制了其應(yīng)用范圍,需將每臺(tái)服務(wù)器上的快速本地NVMe整合為應(yīng)用可見的全局分布式文件系統(tǒng)。
鄭緯民分析指出,目前來看,支持大模型訓(xùn)練有三類系統(tǒng),分別為基于英偉達(dá)GPU的系統(tǒng)、基于國(guó)產(chǎn)AI芯片的系統(tǒng)和基于超級(jí)計(jì)算機(jī)的系統(tǒng)。其中,基于英偉達(dá)公司GPU的系統(tǒng)硬件性能和編程生態(tài)好,但受到禁售影響,加之價(jià)格暴漲,一卡難求。而基于國(guó)產(chǎn)AI芯片的系統(tǒng),盡管近年來國(guó)內(nèi)二十余家芯片公司取得了很大的進(jìn)步,但仍面臨國(guó)產(chǎn)卡應(yīng)用不足、生態(tài)系統(tǒng)有待改善的問題。
鄭緯民直言,要改善基于國(guó)產(chǎn)AI芯片的系統(tǒng)生態(tài),這一問題其實(shí)并不“抽象”,需要做好十個(gè)軟件。
第一是編程框架應(yīng)進(jìn)一步降低編寫人工智能模型的復(fù)雜度;利用基本算子快速構(gòu)建人工智能模型,如PyTorch、TensorFlow。
第二是并行加速,為多機(jī)多卡環(huán)境提供人工智能模型并行訓(xùn)練的能力;支持?jǐn)?shù)據(jù)并行、模型并行、流水線并行、張量并行等,如微軟的DeepSpeed、英偉達(dá)Megatron-LM。
第三是通信庫(kù)要提供跨機(jī)跨卡的通信能力;可支持人工智能模型訓(xùn)練所需各種通信模式;可根據(jù)底層網(wǎng)絡(luò)特點(diǎn)充分利用網(wǎng)絡(luò)通信帶寬,如英偉達(dá)的NCCL庫(kù)、超算普遍支持的MPI通信庫(kù)。
第四是算子庫(kù),需提供人工智能模型所需基本操作的高性能實(shí)現(xiàn);能夠盡可能覆蓋典型人工智能模型所需的操作;算子庫(kù)能充分發(fā)揮底層硬件的性能,如英偉達(dá)cuDNN,cnBLAS。
第五是AI編譯器,要可在異構(gòu)處理器上對(duì)人工智能程序生成高效的目標(biāo)代碼;對(duì)算子庫(kù)不能提供的操作通過AI編譯器自動(dòng)生成高效目標(biāo)代碼,如XLA、TVM。不過,鄭緯民也談到,目前國(guó)內(nèi)掌握AI編譯器的人才較少,實(shí)現(xiàn)難度較大。
第六是編程語言,要提供異構(gòu)處理器上編寫并行程序的支持;覆蓋底層硬件功能,發(fā)揮硬件性能;能夠編寫人工智能模型的基本算子(Operator),如英偉達(dá)的CUDA,Intel的oneAPI。
第七是調(diào)度器,需具備在大規(guī)模系統(tǒng)上高效調(diào)度人工智能任務(wù)的能力;同時(shí)設(shè)計(jì)高效調(diào)度算法,提高集群資源利用率,如Kubernetes(K8S)、華為ModelArts。
第八是內(nèi)存分配系統(tǒng),可針對(duì)人工智能應(yīng)用特點(diǎn)提供高效的內(nèi)存分配策略。
第九是容錯(cuò)系統(tǒng),用來提供在硬件發(fā)生故障后快速恢復(fù)模型訓(xùn)練的能力。
第十是存儲(chǔ)系統(tǒng),需支持訓(xùn)練過程中高效的數(shù)據(jù)讀寫(檢查點(diǎn)訓(xùn)練數(shù)據(jù)等)。
鄭緯民直言,當(dāng)前國(guó)內(nèi)已經(jīng)有了上述軟件,但做得不夠全,不夠好。當(dāng)務(wù)之急是先將上述軟件做好,從而提高用戶的使用意愿。鄭緯民強(qiáng)調(diào),國(guó)產(chǎn)AI芯片與業(yè)界領(lǐng)先水平存在一定差距,但若將生態(tài)做好,只要性能可以達(dá)到業(yè)界領(lǐng)先水平的一半或60%,客戶也會(huì)愿意使用,大多數(shù)任務(wù)不會(huì)因芯片性能的微小差異而有明顯感知。
至于第三種渠道,基于超級(jí)計(jì)算機(jī)的系統(tǒng),根據(jù)鄭緯民透露,當(dāng)前國(guó)內(nèi)約有14個(gè)國(guó)家級(jí)超算中心,性能很快且機(jī)器使用情況尚未達(dá)到飽和。若軟硬件協(xié)同的設(shè)計(jì)做好,在超算機(jī)器上做大模型訓(xùn)練也是可能實(shí)現(xiàn)的。
鄭緯民提供的視頻演示顯示,在某國(guó)產(chǎn)超算上進(jìn)行大模型訓(xùn)練與推理時(shí),使用超算調(diào)度系統(tǒng)申請(qǐng)512個(gè)節(jié)點(diǎn)來進(jìn)行7B模型預(yù)訓(xùn)練,半精度和全精度訓(xùn)練效果可與英偉達(dá)平臺(tái)完全對(duì)齊;與租用英偉達(dá)GPU相比,使用國(guó)產(chǎn)超算可節(jié)省6倍左右的成本。加載開源的百川2—7B模型進(jìn)行推理,推理精度也與英偉達(dá)一致。更為關(guān)鍵的是,從成本角度考慮,在上述超算平臺(tái)上訓(xùn)練大模型,只需花費(fèi)英偉達(dá)系統(tǒng)六分之一的成本。
談及當(dāng)前智能算力行業(yè)面臨的痛點(diǎn),鄭緯民直言,構(gòu)建國(guó)產(chǎn)萬卡系統(tǒng)很難,但很有必要,未來還是要繁榮國(guó)產(chǎn)卡的生態(tài)系統(tǒng),做好軟硬件的協(xié)同設(shè)計(jì),同時(shí)解決大模型基礎(chǔ)設(shè)施的幾大問題。“雖然很難,但只要我們努力,與芯片公司合作,一定能將萬卡系統(tǒng)做好。”鄭緯民稱。
如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP