2023-09-08 14:19:20
大模型推動AI進(jìn)入新紀(jì)元,對計(jì)算、存儲、網(wǎng)絡(luò)、數(shù)據(jù)檢索及調(diào)度容錯等方面提出了更高要求。在9月7日舉行的2023騰訊全球數(shù)字生態(tài)大會“AI超級底座專場”上,騰訊云介紹異構(gòu)計(jì)算全新產(chǎn)品矩陣“AI超級底座”及其新能力。
騰訊云副總裁王亞晨在開場致辭中表示,AI大模型就像是一場F1比賽,騰訊云專門設(shè)計(jì)了星脈高性能算力網(wǎng)絡(luò)“賽道”,并自研了TiTa和TCCL網(wǎng)絡(luò)協(xié)議作為“車載導(dǎo)航和道路控制系統(tǒng)”,共同讓“HCC GPU服務(wù)器”這臺馬力強(qiáng)大的F1賽車發(fā)揮最大的算力性能,助力客戶在AI大模型的競爭中遙遙領(lǐng)先。
隨著AI應(yīng)用走向全領(lǐng)域,模型參數(shù)發(fā)展到千億、萬億級規(guī)模,對云計(jì)算的基礎(chǔ)設(shè)施提出了全新的挑戰(zhàn)。騰訊云異構(gòu)計(jì)算產(chǎn)品總監(jiān)宋丹丹表示,AI超級底座可以從底層算力基礎(chǔ)設(shè)施到上層應(yīng)用對接提供整套完整服務(wù),方便模型生產(chǎn)廠商和AI開發(fā)者快速開發(fā)、驗(yàn)證。
騰訊云AI超級底座具有海量算力、極致性能、靈活取用等優(yōu)勢,結(jié)合了騰訊云的海量多元算力、高性能網(wǎng)絡(luò)和存儲集群,并以云原生產(chǎn)品作為入口供開發(fā)者靈活調(diào)用。在軟硬結(jié)合層,騰訊云還可以通過GPU虛擬化、容器等,以及高性能應(yīng)用服務(wù)HAI給開發(fā)者提供簡易的開發(fā)體驗(yàn),并讓底層的高性能算力無損直達(dá)開發(fā)者,真正實(shí)現(xiàn)“高性能易上手”。
作為AIGC時代的重要核心,大模型需要龐大的算力來支撐。騰訊云高性能計(jì)算集群產(chǎn)品HCC采用騰訊云星星海自研服務(wù)器,提供高性能、高帶寬和低延遲的集群算力。目前,HCC已全面升級至2.0,性能、效率和穩(wěn)定性實(shí)現(xiàn)全面提升,相比上代訓(xùn)練效率提升幅度達(dá)到3倍,將幾十天的訓(xùn)練周期縮短至一周內(nèi)。
此外,騰訊云還推出了性價比更高的冷存儲產(chǎn)品、COS加速器,以及數(shù)據(jù)湖多級加速體系,可面向AIGC等多種業(yè)務(wù)場景提供多級緩存加速方案,進(jìn)一步提升訓(xùn)練效率并降低資源成本。騰訊云存儲產(chǎn)品總監(jiān)崔劍指出,騰訊云通過提供近存儲側(cè)的一站式數(shù)據(jù)處理智能平臺,為以AIGC為代表的業(yè)務(wù)提供內(nèi)容處理、內(nèi)容審核等服務(wù),幫助用戶挖掘數(shù)據(jù)價值,從而實(shí)現(xiàn)了“取之AI,助力AI”。
騰訊云公網(wǎng)產(chǎn)品負(fù)責(zé)人俞圓圓指出,對于參數(shù)達(dá)到千億、萬億級別的AI大模型來說,大帶寬、低延時、廣覆蓋、少抖動的網(wǎng)絡(luò)是實(shí)現(xiàn)高效訓(xùn)練的關(guān)鍵因素之一。騰訊云星脈高性能計(jì)算網(wǎng)絡(luò)具備業(yè)界最高的3.2T通信帶寬,可為AI大模型的訓(xùn)練提供高速公路級別的網(wǎng)絡(luò)通道。
底層基礎(chǔ)設(shè)施以外,AI大模型的落地也需要上層軟件的支持。騰訊云異構(gòu)計(jì)算AI研發(fā)專家工程師葉帆表示,隨著集群規(guī)模的增加,無論訓(xùn)練還是推理對硬件性能的利用均呈現(xiàn)指數(shù)難度上升,需要精細(xì)的軟硬件協(xié)同來提升性能。騰訊云的Taco-LLM開箱即用性能方案基于Continuous Batching、預(yù)測解碼、模型量化等技術(shù),提高吞吐的同時,也降低了客戶端延遲,并全面兼容hugging face主流大語言模型,可保障復(fù)雜多變的公有云應(yīng)用場景。
針對GPU算力資源浪費(fèi)的問題,騰訊云TencentOS高級產(chǎn)品架構(gòu)師杜震表示,qGPU容器產(chǎn)品可以支持多個容器共享GPU卡,具備了各容器間算力、顯存的精細(xì)隔離和靈活配置,將GPU的利用率提升至極致,最終幫助客戶大幅節(jié)約GPU資源成本。同時,騰訊云還基于RUE內(nèi)核全場景混部,統(tǒng)一調(diào)度分配CPU、IO、網(wǎng)絡(luò)、內(nèi)存等資源,提升資源利用率,進(jìn)一步降低運(yùn)營成本。
在大模型時代,通過向量數(shù)據(jù)庫將數(shù)據(jù)高效接入AI大模型,并深度挖掘數(shù)據(jù)價值,成為最重要的事。
騰訊云數(shù)據(jù)庫產(chǎn)品副總經(jīng)理羅云指出,騰訊云向量數(shù)據(jù)庫同時具備的性能和規(guī)模優(yōu)勢,支持高達(dá)10億級的向量檢索規(guī)模,延遲則控制在毫秒級,比傳統(tǒng)單機(jī)插件式數(shù)據(jù)庫檢索規(guī)模提升了10倍。同時,騰訊云向量數(shù)據(jù)庫還具備百萬級每秒查詢(QPS)的峰值能力,經(jīng)騰訊內(nèi)部海量場景實(shí)踐,數(shù)據(jù)接入AI的效率比傳統(tǒng)方案提升10倍,運(yùn)行穩(wěn)定性高達(dá)99.99%。
從底層到上層,騰訊云AI超級底座通過大模型高性能計(jì)算集群、計(jì)算網(wǎng)絡(luò)以及向量數(shù)據(jù)庫等大模型生態(tài)工具,助力AI大模型應(yīng)用落地。
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP