2023-09-07 14:23:43
9月7日,2023騰訊全球數(shù)字生態(tài)大會(huì)在深圳寶安舉行。騰訊集團(tuán)副總裁、云與智慧產(chǎn)業(yè)事業(yè)群COO、騰訊云總裁邱躍鵬表示:“云是大模型的最佳載體,大模型將開創(chuàng)下一代云服務(wù)的全新形態(tài)。”
一方面,高性能的云上算力,成了大模型的最佳助推器;搭載大模型能力的應(yīng)用,也通過云服務(wù)的方式落地。無論是訓(xùn)練大模型、還是使用大模型,都離不開云。另一方面,大模型將重新定義云上工具,效能顯著提升,企業(yè)可以通過云,使用智能化水平更高、更便捷易用的云產(chǎn)品。
目前,騰訊云已經(jīng)建立起圍繞大模型的全套能力,包括高性能算力集群、云原生數(shù)據(jù)湖倉和向量數(shù)據(jù)庫等數(shù)據(jù)處理引擎,以及模型安全、支持模型訓(xùn)練和精調(diào)的工具鏈等,企業(yè)、開發(fā)者可以根據(jù)各自需求,靈活選擇產(chǎn)品,降低大模型的訓(xùn)練成本。目前,騰訊云已經(jīng)助力百川智能、智譜科技、MiniMax等企業(yè)打造大模型。
邱躍鵬還表示,大模型進(jìn)一步提升了云產(chǎn)品的效能。比如,騰訊云風(fēng)控大模型、騰訊云AI代碼助手、騰訊會(huì)議AI小助手等產(chǎn)品,都因?yàn)榇竽P湍芰Φ募映?,?shí)現(xiàn)了顯著的效率提升和體驗(yàn)優(yōu)化。目前,騰訊會(huì)議AI小助手已經(jīng)正式開放試用申請(qǐng),同時(shí)新推出了國內(nèi)首個(gè)裸眼3D視頻會(huì)議功能。
在大模型帶來的智能水平提升之外,騰訊云也通過超低延時(shí)的傳輸網(wǎng)絡(luò)為用戶提供更加全真的體驗(yàn)。實(shí)時(shí)音視頻TRTC目前已經(jīng)能做到全球端到端平均延時(shí)小于300毫秒,即使在非洲等網(wǎng)絡(luò)基礎(chǔ)設(shè)施不穩(wěn)定的地區(qū),也能為用戶帶來極佳的體驗(yàn)。
以下為演講速記:
尊敬的各位領(lǐng)導(dǎo)、各位嘉賓,各位媒體朋友,
大家上午好!
我在蔣總后面分享,特意選擇從他后面過來,因?yàn)樵凭褪谴竽P捅澈蟮牡鬃易鳛槭Y總“背后的男人”,分享一下我們?cè)谟?xùn)練大模型過程中云的能力,講一下我們?nèi)绾卧谠粕现未竽P停绾卧趹?yīng)用中去使用我們的大模型。
剛才在蔣杰的分享中,我們看到了非常多混元的能力。今年大模型是非常熱的話題,今天騰訊發(fā)布了我們的混元大模型,在行業(yè)中也有非常多的開源模型,另外我們也看到很多公司在做一些大模型相關(guān)的創(chuàng)新。所以我今天上來想講一下,如果你真的做一個(gè)大模型,背后對(duì)于云到底帶來了一些什么樣新的、不一樣的挑戰(zhàn)。
其實(shí)我們都知道,你要訓(xùn)練一個(gè)大模型對(duì)于算力的要求非常高,今天我們的混元Token數(shù)據(jù)量已經(jīng)達(dá)到2T。如果用GPU的人,我相信大家都知道GPU這樣一個(gè)高密的算力,它在訓(xùn)練過程中,本身的卡的穩(wěn)定性要比原來的通用計(jì)算的時(shí)候是要更差一些的。每次發(fā)生GPU卡的故障,對(duì)于整個(gè)訓(xùn)練中斷的影響、對(duì)于回滾的要求、對(duì)于工程化的要求都非常高。這次做大模型訓(xùn)練之后,我們對(duì)云的基礎(chǔ)設(shè)施,從存儲(chǔ)、網(wǎng)絡(luò)到計(jì)算進(jìn)行了全面升級(jí)?;谛切呛5姆?wù)器,我們把GPU的服務(wù)器故障率降低了超過50%,通過星脈網(wǎng)絡(luò)的支持,我們已經(jīng)可以支持超過10萬張卡并行計(jì)算的大規(guī)模訓(xùn)練集群。
在訓(xùn)練過程中,如果你有卡的故障,整個(gè)訓(xùn)練是要被中斷、要做回滾,在整個(gè)工程實(shí)踐中,對(duì)于checkpoint寫的速度就會(huì)要求非常高,其實(shí)傳統(tǒng)的存儲(chǔ)服務(wù),或者一些商業(yè)的東西很難滿足checkpoint寫的要求,通過騰訊云存儲(chǔ)的升級(jí),我們可以在60s內(nèi)完成超過3TB的數(shù)據(jù)寫入,這樣我們整個(gè)模型當(dāng)發(fā)生卡的故障時(shí),checkpoint寫入和讀出的速度都會(huì)變得很快,整個(gè)訓(xùn)練的效率就會(huì)變的非常高。正是通過這樣存儲(chǔ)、計(jì)算、網(wǎng)絡(luò)整體的升級(jí),我們今天可以做到在萬億參數(shù)的時(shí)候,一輪的訓(xùn)練可以在4天之內(nèi)完成,讓訓(xùn)練效率得到大幅提升,訓(xùn)練時(shí)間得到保障,訓(xùn)練成本下降很多。
剛才我們講的是算力需求,當(dāng)你有足夠的算力做模型訓(xùn)練,構(gòu)建了一個(gè)很好的算力,下一步更重要的是輸入的原數(shù)據(jù)的清洗。剛才看到混元最新的數(shù)據(jù)到了7月份。其實(shí)我們每次更新數(shù)據(jù)的時(shí)候都要做數(shù)據(jù)清洗。隨著數(shù)據(jù)越來越多,數(shù)據(jù)清洗的過程也會(huì)成為制約整個(gè)模型迭代升級(jí)的非常重要的卡點(diǎn)。通過騰訊的云原生的數(shù)據(jù)湖倉,還有我們的向量數(shù)據(jù)庫,我們看到,無論是混元還是今天中國在云上做大模型的創(chuàng)業(yè)公司,通過這樣的解決方案,我們可以在每秒寫入百萬級(jí)數(shù)據(jù),對(duì)于海量數(shù)據(jù)的清洗,也達(dá)到了Tbps級(jí)吞吐能力?;谶@樣整體的解決方案,我們看到原數(shù)據(jù)的清洗性能提升超過了40%,數(shù)據(jù)處理的整體運(yùn)營成本也降低了50%。包括MiniMax、百川等這些創(chuàng)業(yè)公司都在用我們的解決方案去做他們的云上大模型。
其實(shí)不是每個(gè)團(tuán)隊(duì)都要做大模型,我相信會(huì)有很多企業(yè)說,我有自己企業(yè)私有的數(shù)據(jù),我們希望擁有行業(yè)模型的能力。所以我們?cè)谕瓿闪耸褂盟懔?,清洗和處理?shù)據(jù)之后,對(duì)于企業(yè)來講就是怎么樣能夠更快、更高效構(gòu)筑行業(yè)模型。今天在TI平臺(tái)上,我們支持大家去做模型的精調(diào),也支持開源模型。我們對(duì)企業(yè)在做模型精調(diào)過程中的精調(diào)、部署等方方面面的工具做了全棧式打造,可以讓每個(gè)想做自己模型的企業(yè),基于TI平臺(tái),用我們的加速框架、基礎(chǔ)算力、開源工具,讓構(gòu)筑行業(yè)模型變得更簡單。
大家又想說,我有了算力、有了數(shù)據(jù)、有了清洗,也有了工具,但我怎么樣保證我的安全?基于騰訊多年積累下來的安全能力,我們?cè)诖竽P陀?xùn)練過程中,對(duì)內(nèi)容安全、隱私內(nèi)容給出了我們的解決方案。其實(shí)大家在使用大模型過程中就會(huì)想,我變成了一個(gè)prompt工程師和模型去做交互訓(xùn)練,有時(shí)候你不希望一些信息被模型完全記錄,我們的玄武實(shí)驗(yàn)室打造了隱私安全解決方案,讓你使用模型的交互變得更加安全。
另外在模型訓(xùn)練過程中,訓(xùn)練出來的模型如何保證里面生成的內(nèi)容是安全、可控、合規(guī)的?所以我們也把騰訊積累下來的內(nèi)容安全能力開放在云上,讓我們每個(gè)想做大模型或者想做行業(yè)模型的客戶都可以使用我們的安全能力去保證自己訓(xùn)練出來的模型可以更加合規(guī)。
我剛才講的是大模型訓(xùn)練過程中,遇到的從計(jì)算到數(shù)據(jù)清洗,到工具,到安全層面的產(chǎn)品。剛才蔣總在他的分享中已經(jīng)分享了應(yīng)用如何去與我們的大模型結(jié)合,下面我介紹一下從安全到CODING編碼,到會(huì)議,如何去更好地應(yīng)用我們大模型的能力。
其實(shí)安全是一個(gè)非常特殊的領(lǐng)域,尤其在風(fēng)控方面,對(duì)于金融企業(yè)來講這是一個(gè)必不可少的能力,因?yàn)轱L(fēng)控做不好的話,很多業(yè)務(wù)開展的風(fēng)險(xiǎn)是非常大的。過去,因?yàn)橐粋€(gè)新的業(yè)務(wù)做冷啟動(dòng),風(fēng)控建模大概需要兩周時(shí)間,才能把一個(gè)模型run到起步的階段。今天,基于騰訊積累的安全的know-how加上大模型的能力,我們可以讓整個(gè)風(fēng)控大模型的泛化能力變得非常強(qiáng),兩天之內(nèi)就可以很好的形成一個(gè)風(fēng)控模型,這樣我們看到的安全保障的能力就會(huì)變得非??焖佟?/p>
當(dāng)大模型來的時(shí)候,尤其當(dāng)大模型進(jìn)入編碼領(lǐng)域時(shí)候,很多人在想,是不是程序員要失業(yè)了?內(nèi)部討論的時(shí)候有些人很慌,我們這個(gè)團(tuán)隊(duì)今天這么多人,明天是不是就剩一半人了,再過三年是不是只需要一個(gè)干活的Leader了?底下工作都是AI在干?那肯定不是的,實(shí)際上,我們做一個(gè)編碼的目的就是通過程序去實(shí)現(xiàn)業(yè)務(wù),實(shí)現(xiàn)很多好的應(yīng)用,真正讓每個(gè)用戶在使用的過程中享受最終的成果。今天AI的輔助編碼更多是讓程序員的工作效率大幅提升,在騰訊這樣一個(gè)AI代碼助手輔助下,我們看到在代碼補(bǔ)全場(chǎng)景中,主動(dòng)代碼生成率已經(jīng)達(dá)到了30%,而且代碼的采用率也是30%,這樣的話,我們可以讓代碼生產(chǎn)效率更高,我相信不是程序員失業(yè)了,而是讓整個(gè)程序員生活得更加幸福,有30%的工作可以讓代碼助手幫你干。你最后的結(jié)果是到目的地,你過程中的幸福感其實(shí)是在提升的。
會(huì)議也是跟AI結(jié)合是特別多的點(diǎn),線上的開會(huì)把大家的聯(lián)線、real time的溝通解決了,當(dāng)會(huì)議和AI結(jié)合的時(shí)候,我們可以在會(huì)前、會(huì)中、會(huì)后都有非常多的幫助。大家今天來開大會(huì),你可以摸摸魚,不聽,這都沒有問題。但如果說你在一個(gè)內(nèi)部的重要會(huì)議上,自己遲到了,或者小小走神、摸魚了,突然你的領(lǐng)導(dǎo)你一下,問你“小張,剛才那個(gè)問題你有什么想法?”這個(gè)時(shí)候你怎么辦?今天,我們希望通過騰訊會(huì)議AI的能力,讓你發(fā)生這樣的情況時(shí)可以幫你總結(jié)會(huì)議中發(fā)生的信息,領(lǐng)導(dǎo)在關(guān)注什么,哪些和你相關(guān),這些信息都可以通過AI輔助。
今天,AI小助手也正式開放試用申請(qǐng),歡迎各位朋友去申請(qǐng)我們的試用名額,來去體驗(yàn)AI時(shí)代騰訊會(huì)議帶來的不一樣的開會(huì)體驗(yàn)。
有了智能加持的騰訊會(huì)議之后,我們也在想,在交互上還能有什么創(chuàng)新。我們雖然開的是一個(gè)在線的會(huì)議,有了智能以后,是不是還可以讓我們更加地真實(shí)?所以今天,騰訊會(huì)議推出了3D會(huì)議能力,希望通過“更小的帶寬+消費(fèi)級(jí)硬件”,可以實(shí)現(xiàn)一個(gè)真正的3D開會(huì)交互體驗(yàn)。今天在外面的展廳中,我們專門放了一臺(tái)裸眼3D會(huì)議硬件,如果大家有興趣的話,一會(huì)兒可以到展廳里去體驗(yàn)一下如何開一個(gè)3D的會(huì)。如果有了這樣的3D體驗(yàn),我們也在暢想,未來在直播帶貨的場(chǎng)景、教學(xué)的場(chǎng)景,你可能看到的不只是一個(gè)平面的東西,而是能看到一個(gè)立體空間,當(dāng)有3D的能力時(shí),你可以做一些更加主動(dòng)的觀察,否則你所有看到的東西都是來自攝像頭一個(gè)單一平面給到你的,我相信未來這種3D的場(chǎng)景可以讓我們?cè)谟肁I提高效率的同時(shí),也有更加全真體驗(yàn)。
除了AI、更加全真的體驗(yàn)之外,你在網(wǎng)上使用的時(shí)候離不開最底層的更加高效的傳輸網(wǎng)絡(luò)。今天,我們?cè)俅紊?jí)了TRTC網(wǎng)絡(luò),讓全球的端到端互聯(lián)時(shí)間降到300ms以內(nèi)。不知道在座的有多少人去過非洲,今天我們?cè)趪鴥?nèi)大家用的都是5G,找不到世界上比中國網(wǎng)絡(luò)更好的地區(qū)。但如果你到非洲,可能你行進(jìn)幾百米,運(yùn)營商就會(huì)切換一次。通過騰訊的TRTC實(shí)時(shí)音視頻能力,我們?cè)谌蛞呀?jīng)實(shí)現(xiàn)了端到端平均300ms以內(nèi)的時(shí)延,非洲當(dāng)?shù)刈畲蟮囊魳访襟w平臺(tái)就用了我們的技術(shù),可以讓非洲的兄弟們也可以使用像我們國內(nèi)這樣交互體驗(yàn),非洲兄弟也贊賞了我們的能力。
剛才Dowson講到,我們獲得了MSU云端視頻解碼大賽的大滿貫,說明我們的產(chǎn)品性能是非常極致的。同時(shí),我們更加關(guān)注音視頻媒體處理能力怎么能夠?qū)崿F(xiàn)幫助到客戶的業(yè)務(wù)。過去通過我們媒體處理的能力,我們幫助了很多客戶在同等效果情況下,一年內(nèi)存儲(chǔ)和帶寬成本降低了超過40%,而在這樣的時(shí)候,我們又去對(duì)比了全球的友商,在同等的碼率情況下,我們視頻的質(zhì)量評(píng)分是高出20%,又省錢,效果又好。
今天我們也把這樣一些傳輸能力和安全的能力再一次升級(jí)成edgeone的平臺(tái),在全球享受傳輸效果的同時(shí)具備了安全防護(hù)能力,在全球的保護(hù)中,我們防御的流量攻擊峰值超過2TB。
今天我們講了,從大模型到應(yīng)用,如何訓(xùn)練使用大模型,以及技術(shù)的升級(jí),我相信技術(shù)的革命是永無止境的,每天都會(huì)看到技術(shù)的進(jìn)步,騰訊云也會(huì)不停地升級(jí)我們的產(chǎn)品,希望與大家一起共享AI和大模型帶來的技術(shù)紅利。
特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP