每日經(jīng)濟(jì)新聞 2024-05-06 22:22:07
每經(jīng)記者 王紫薇 每經(jīng)編輯 劉雪梅
基礎(chǔ)模型搭建了之后,企業(yè)對(duì)生成式AI的建設(shè)關(guān)鍵來到數(shù)據(jù)層面。
近日,在亞馬遜云科技“無數(shù)據(jù)不模型——生成式AI時(shí)代的數(shù)據(jù)基座”媒體溝通會(huì)上,亞馬遜云科技大中華區(qū)產(chǎn)品部總經(jīng)理陳曉建強(qiáng)調(diào)了數(shù)據(jù)在生成式AI時(shí)代的關(guān)鍵作用。他表示,數(shù)據(jù)在生成式AI時(shí)代處于核心地位,企業(yè)要想在生成式AI時(shí)代取得成功,必須從數(shù)據(jù)做起,利用自身的數(shù)據(jù)構(gòu)建具有商業(yè)價(jià)值的AI應(yīng)用。
陳曉建認(rèn)為,企業(yè)需要構(gòu)建以下3個(gè)方面的數(shù)據(jù)能力:模型微調(diào)和預(yù)訓(xùn)練所需的數(shù)據(jù)處理能力、利用專有數(shù)據(jù)與模型快速結(jié)合以產(chǎn)生獨(dú)特價(jià)值的能力、有效處理新數(shù)據(jù)以助推生成式AI應(yīng)用持續(xù)快速發(fā)展的能力,在被問及AIGC時(shí)代,亞馬遜云科技在人工智能推理成本和訓(xùn)練成本上是否不像在原本的商業(yè)模式上有優(yōu)勢(shì)時(shí),亞馬遜云科技方面表示,還是看重客戶最終要的是什么。言下之意,亞馬遜云科技希望無論AIGC時(shí)代的服務(wù)成本怎么變動(dòng),自身的商業(yè)模式仍是以提供云基礎(chǔ)設(shè)施、模型層、應(yīng)用層的工具與服務(wù)為主。
數(shù)據(jù)處理為何重要
大量的、高質(zhì)量的數(shù)據(jù)對(duì)生成式AI的重要性已經(jīng)不言而喻。
亞馬遜云科技方面此次表示,如果每個(gè)公司都能訪問相同的基礎(chǔ)模型,那么各個(gè)公司處于同一起跑線;而能夠利用自身的數(shù)據(jù)構(gòu)建具有真正商業(yè)價(jià)值的生成式AI應(yīng)用的公司,就贏在了起跑線上。
可以說,生成式AI基礎(chǔ)模型的局限性之一,在于無法及時(shí)擁有企業(yè)的專有數(shù)據(jù)。如果想讓模型服務(wù)于企業(yè)發(fā)展,那么通過技術(shù)手段加速數(shù)據(jù)與模型的結(jié)合,就成了企業(yè)數(shù)據(jù)基座的關(guān)鍵之一。
陳曉建進(jìn)一步表示,成功的企業(yè)需要懂業(yè)務(wù)、懂用戶的生成式AI應(yīng)用,而這些應(yīng)用的構(gòu)建需要從數(shù)據(jù)做起。他舉了位于美國的人工智能初創(chuàng)公司Perplexity的例子,其通過將傳統(tǒng)搜索、客戶數(shù)據(jù)與大型語言模型相結(jié)合,實(shí)現(xiàn)了快速增長。
也是因此,這家公司是人工智能領(lǐng)域的“紅人”。據(jù)悉,Perplexity正進(jìn)行至少2.5億美元的新一輪融資,估值可能達(dá)到25億至30億美元。而這家公司在過去四個(gè)月中剛剛進(jìn)行了兩筆大額融資,并且估值實(shí)現(xiàn)了飛躍:今年1月,Perplexity以5.4億美元的估值籌集了近7400萬美元;3月初,Perplexity以10億美元的估值融資約6300萬美元。
目前來說,用企業(yè)自身的數(shù)據(jù)去差異化生成式AI應(yīng)用、通過數(shù)據(jù)定制基礎(chǔ)模型的方式主要分為三大類:檢索增強(qiáng)生成(RAG)、微調(diào)、持續(xù)預(yù)訓(xùn)練。這三種方式在不同應(yīng)用場景中的適用性和對(duì)數(shù)據(jù)的要求不同。
亞馬遜云科技的對(duì)策
亞馬遜云科技強(qiáng)調(diào)了自身在數(shù)據(jù)基座構(gòu)建方面的三大核心能力:模型微調(diào)和預(yù)訓(xùn)練所需的數(shù)據(jù)處理能力、利用專有數(shù)據(jù)與模型快速結(jié)合以產(chǎn)生獨(dú)特價(jià)值的能力,以及有效處理新數(shù)據(jù)以助推生成式AI應(yīng)用持續(xù)快速發(fā)展的能力。
在數(shù)據(jù)存儲(chǔ)方面,亞馬遜云科技提供的Amazon S3服務(wù)可以滿足用戶在微調(diào)和預(yù)訓(xùn)練基礎(chǔ)模型時(shí)對(duì)數(shù)據(jù)存儲(chǔ)的嚴(yán)格要求。同時(shí),文件存儲(chǔ)服務(wù)的亞毫秒級(jí)延遲和高吞吐性能,將進(jìn)一步加快模型優(yōu)化速度。
數(shù)據(jù)清洗和治理方面,亞馬遜云科技通過 Amazon EMR Serverless和Amazon Glue等服務(wù),幫助企業(yè)高效完成數(shù)據(jù)清理、去重和分詞等操作,使企業(yè)能夠?qū)W⒂贏I業(yè)務(wù)創(chuàng)新。
此外,亞馬遜云科技還著重強(qiáng)調(diào)了其在向量搜索和無服務(wù)器架構(gòu)方面的創(chuàng)新。其中,檢索增強(qiáng)生成(RAG)技術(shù)被普遍認(rèn)為是實(shí)現(xiàn)數(shù)據(jù)與模型結(jié)合的主要途徑之一。RAG通過將數(shù)據(jù)轉(zhuǎn)換為向量并存儲(chǔ)到向量數(shù)據(jù)庫中,從而將語義的關(guān)聯(lián)性轉(zhuǎn)化為向量間的數(shù)學(xué)距離問題,以實(shí)現(xiàn)內(nèi)容的關(guān)聯(lián)性計(jì)算。
向量搜索與數(shù)據(jù)存儲(chǔ)的結(jié)合可以帶來多方面的好處,包括更高效和更精確的檢索能力、處理和索引大規(guī)模的數(shù)據(jù)等。目前來說,結(jié)合向量搜索和數(shù)據(jù)存儲(chǔ)的優(yōu)勢(shì),可以構(gòu)建出強(qiáng)大的信息檢索系統(tǒng),滿足現(xiàn)代應(yīng)用對(duì)于速度、準(zhǔn)確性、可靠性和智能化的需求。
但這同時(shí)也帶來一部分成本問題,比如需要更多的存儲(chǔ)空間。對(duì)此,陳曉建告訴《每日經(jīng)濟(jì)新聞》記者,存儲(chǔ)上確實(shí)會(huì)讓成本有所增加,但能夠在整個(gè)數(shù)據(jù)內(nèi)容檢索時(shí)取得更好的效果。
亞馬遜云科技同時(shí)表示,自身已在8種數(shù)據(jù)存儲(chǔ)中添加了向量搜索功能。客戶還可以通過Amazon Memory DB內(nèi)存數(shù)據(jù)庫,降低生成式AI應(yīng)用的模型調(diào)用成本和響應(yīng)延遲。從亞馬遜云科技對(duì)生成式AI時(shí)代數(shù)據(jù)基座的看重,可以看到數(shù)據(jù)處理的重要性以及企業(yè)在這一領(lǐng)域面臨的挑戰(zhàn)與機(jī)遇。對(duì)于亞馬遜云科技來說,為AIGC時(shí)代的企業(yè)提供更全面的服務(wù)也是機(jī)遇與挑戰(zhàn)并存。
如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP