每日經濟新聞
要聞

每經網首頁 > 要聞 > 正文

中國工程院院士鄭緯民:做好十個軟件,改善基于國產AI芯片的系統(tǒng)生態(tài)

每日經濟新聞 2024-04-29 10:39:02

◎4月28日,中國移動2024算力網絡大會在蘇州開幕?!睹咳战洕侣劇酚浾咴诂F場注意到,會上,中國工程院院士鄭緯民提到,目前有三類系統(tǒng)可支持大模型訓練?;谟ミ_GPU的系統(tǒng)一卡難求;基于國產AI芯片的系統(tǒng)仍面臨國產卡應用不足、生態(tài)系統(tǒng)有待改善的問題,可通過十個軟件來進行改善;基于超級計算機的系統(tǒng),可在做好軟硬件協(xié)同設計的情況下實現大模型訓練,但需在超算機器尚未飽和的前提下操作。

每經記者 楊卉    每經編輯 楊夏    

4月28日,中國移動2024算力網絡大會在蘇州開幕?!睹咳战洕侣劇酚浾咴诂F場注意到,會上,中國工程院院士鄭緯民提到,目前有三類系統(tǒng)可支持大模型訓練。

其中,基于英偉達GPU的系統(tǒng)一卡難求;基于國產AI芯片的系統(tǒng)仍面臨國產卡應用不足、生態(tài)系統(tǒng)有待改善的問題,可通過十個軟件來進行改善;基于超級計算機的系統(tǒng),可在做好軟硬件協(xié)同設計的情況下實現大模型訓練,但需在超算機器尚未飽和的前提下操作。整體來看,盡管打造國產A1卡的萬卡大模型訓練平臺難度不小,但十分必要。

圖片來源:每經記者 楊卉 攝

國產卡應用不足,生態(tài)系統(tǒng)有待改善

鄭緯民提出,近兩年來人工智能的發(fā)展導致算力需求呈爆發(fā)性增長,其中模型研發(fā)需要配套算力;模型訓練需要海量算力,如訓練GPT-4需要一萬塊英偉達A100芯片跑上11個月;模型精調需要可控算力;模型推理需要可靠算力,算力存在于大模型生命周期的每一環(huán)。

然而,海量算力背后有一個很現實的問題:貴。根據鄭緯民計算,在大模型訓練的過程中,70%的開銷要花在算力上;推理過程中95%的花費也是在算力上,人工智能產業(yè)算力成本居高不下。

鄭緯民進一步指出,要構建基于國產AI卡的萬卡大模型訓練平臺,需要考慮到幾個問題。首先是半精度運算性能與雙精度運算性能的平衡問題。鄭緯民強調,在設計過程中,不僅要考慮半精度運算性能,還要考慮雙精度運算能力,雙精度與半精度運算性能之比為1∶50—1∶100為宜。“不論是自己做還是買,第一件事情就是問比例是多少。”

第二點是網絡平衡設計。

鄭緯民解釋稱,萬卡系統(tǒng)中的萬塊卡不能分散在各地,將其連接起來就是所謂的網絡。但連接也很有“講究”,每塊卡之間能實現直連是最好的狀態(tài)。但如此一來,每塊AI卡都需插上9999塊連接卡,一萬塊AI芯片均要實現直連,所需的連接卡數量太過龐大,成本甚至還要高過萬塊卡本身。此外,即便資金充足,卡槽數量也無法滿足需求。因此,網絡設計不能只針對CNN算法,還需考慮極大規(guī)模預訓練模型對系統(tǒng)的需求。大規(guī)模預訓練模型需要高帶寬低延遲網絡,支持數據并行,模型并行和專家平行模式。

第三點是體系結構感知的內存平衡設計。鄭緯民強調,一方面訪問內存的請求使網絡擁塞,降低吞吐量,反映到應用程序上表現為訪存性能顯著下降;另一方面,多個訪問內存的請求可能訪問同一存控對應的內存空間,負載不均,存控需要順序處理訪存請求。

第四點是IO子系統(tǒng)平衡設計。鄭緯民進一步解釋稱,萬卡系統(tǒng)中負載的芯片數量太大,即便是英偉達芯片,也基本會在三小時左右出現一次錯誤。過去,為保證訓練不被中斷,大模型訓練廠商通常采用間隔一段時間,如2.5小時對數據進行一次保存或轉移,一旦出現錯誤可以不必從0開始,可在保存位置繼續(xù)執(zhí)行。

然而,大模型訓練數量過大,很難沿用上述操作模式。因此,萬卡系統(tǒng)除了支持檢查點操作,還需增加SSD(固態(tài)硬盤)。另外,系統(tǒng)的本地NVMe SSD僅通過本地文件系統(tǒng)訪問,限制了其應用范圍,需將每臺服務器上的快速本地NVMe整合為應用可見的全局分布式文件系統(tǒng)。

鄭緯民分析指出,目前來看,支持大模型訓練有三類系統(tǒng),分別為基于英偉達GPU的系統(tǒng)、基于國產AI芯片的系統(tǒng)和基于超級計算機的系統(tǒng)。其中,基于英偉達公司GPU的系統(tǒng)硬件性能和編程生態(tài)好,但受到禁售影響,加之價格暴漲,一卡難求。而基于國產AI芯片的系統(tǒng),盡管近年來國內二十余家芯片公司取得了很大的進步,但仍面臨國產卡應用不足、生態(tài)系統(tǒng)有待改善的問題。

十大軟件改善基于國產AI芯片的系統(tǒng)生態(tài)

鄭緯民直言,要改善基于國產AI芯片的系統(tǒng)生態(tài),這一問題其實并不“抽象”,需要做好十個軟件。

第一是編程框架應進一步降低編寫人工智能模型的復雜度;利用基本算子快速構建人工智能模型,如PyTorch、TensorFlow。

第二是并行加速,為多機多卡環(huán)境提供人工智能模型并行訓練的能力;支持數據并行、模型并行、流水線并行、張量并行等,如微軟的DeepSpeed、英偉達Megatron-LM。

第三是通信庫要提供跨機跨卡的通信能力;可支持人工智能模型訓練所需各種通信模式;可根據底層網絡特點充分利用網絡通信帶寬,如英偉達的NCCL庫、超算普遍支持的MPI通信庫。

第四是算子庫,需提供人工智能模型所需基本操作的高性能實現;能夠盡可能覆蓋典型人工智能模型所需的操作;算子庫能充分發(fā)揮底層硬件的性能,如英偉達cuDNN,cnBLAS。

第五是AI編譯器,要可在異構處理器上對人工智能程序生成高效的目標代碼;對算子庫不能提供的操作通過AI編譯器自動生成高效目標代碼,如XLA、TVM。不過,鄭緯民也談到,目前國內掌握AI編譯器的人才較少,實現難度較大。

第六是編程語言,要提供異構處理器上編寫并行程序的支持;覆蓋底層硬件功能,發(fā)揮硬件性能;能夠編寫人工智能模型的基本算子(Operator),如英偉達的CUDA,Intel的oneAPI。

第七是調度器,需具備在大規(guī)模系統(tǒng)上高效調度人工智能任務的能力;同時設計高效調度算法,提高集群資源利用率,如Kubernetes(K8S)、華為ModelArts。

第八是內存分配系統(tǒng),可針對人工智能應用特點提供高效的內存分配策略。

第九是容錯系統(tǒng),用來提供在硬件發(fā)生故障后快速恢復模型訓練的能力。

第十是存儲系統(tǒng),需支持訓練過程中高效的數據讀寫(檢查點訓練數據等)。

鄭緯民直言,當前國內已經有了上述軟件,但做得不夠全,不夠好。當務之急是先將上述軟件做好,從而提高用戶的使用意愿。鄭緯民強調,國產AI芯片與業(yè)界領先水平存在一定差距,但若將生態(tài)做好,只要性能可以達到業(yè)界領先水平的一半或60%,客戶也會愿意使用,大多數任務不會因芯片性能的微小差異而有明顯感知。

至于第三種渠道,基于超級計算機的系統(tǒng),根據鄭緯民透露,當前國內約有14個國家級超算中心,性能很快且機器使用情況尚未達到飽和。若軟硬件協(xié)同的設計做好,在超算機器上做大模型訓練也是可能實現的。

鄭緯民提供的視頻演示顯示,在某國產超算上進行大模型訓練與推理時,使用超算調度系統(tǒng)申請512個節(jié)點來進行7B模型預訓練,半精度和全精度訓練效果可與英偉達平臺完全對齊;與租用英偉達GPU相比,使用國產超算可節(jié)省6倍左右的成本。加載開源的百川2—7B模型進行推理,推理精度也與英偉達一致。更為關鍵的是,從成本角度考慮,在上述超算平臺上訓練大模型,只需花費英偉達系統(tǒng)六分之一的成本。

談及當前智能算力行業(yè)面臨的痛點,鄭緯民直言,構建國產萬卡系統(tǒng)很難,但很有必要,未來還是要繁榮國產卡的生態(tài)系統(tǒng),做好軟硬件的協(xié)同設計,同時解決大模型基礎設施的幾大問題。“雖然很難,但只要我們努力,與芯片公司合作,一定能將萬卡系統(tǒng)做好。”鄭緯民稱。

如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。

讀者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。

模型 鄭緯民 AI芯片 芯片 人工智能

歡迎關注每日經濟新聞APP

每經經濟新聞官方APP

0

0

免费va国产高清不卡大片,笑看风云电视剧,亚洲黄色性爱在线观看,成人 在线 免费