每日經濟新聞
今日報紙

每經網(wǎng)首頁 > 今日報紙 > 正文

數(shù)據(jù)是AIGC時代的“命門” 亞馬遜云科技全面布局企業(yè)數(shù)據(jù)服務

每日經濟新聞 2024-05-06 22:22:07

每經記者 王紫薇    每經編輯 劉雪梅    

基礎模型搭建了之后,企業(yè)對生成式AI的建設關鍵來到數(shù)據(jù)層面。

近日,在亞馬遜云科技“無數(shù)據(jù)不模型——生成式AI時代的數(shù)據(jù)基座”媒體溝通會上,亞馬遜云科技大中華區(qū)產品部總經理陳曉建強調了數(shù)據(jù)在生成式AI時代的關鍵作用。他表示,數(shù)據(jù)在生成式AI時代處于核心地位,企業(yè)要想在生成式AI時代取得成功,必須從數(shù)據(jù)做起,利用自身的數(shù)據(jù)構建具有商業(yè)價值的AI應用。

陳曉建認為,企業(yè)需要構建以下3個方面的數(shù)據(jù)能力:模型微調和預訓練所需的數(shù)據(jù)處理能力、利用專有數(shù)據(jù)與模型快速結合以產生獨特價值的能力、有效處理新數(shù)據(jù)以助推生成式AI應用持續(xù)快速發(fā)展的能力,在被問及AIGC時代,亞馬遜云科技在人工智能推理成本和訓練成本上是否不像在原本的商業(yè)模式上有優(yōu)勢時,亞馬遜云科技方面表示,還是看重客戶最終要的是什么。言下之意,亞馬遜云科技希望無論AIGC時代的服務成本怎么變動,自身的商業(yè)模式仍是以提供云基礎設施、模型層、應用層的工具與服務為主。

數(shù)據(jù)處理為何重要

大量的、高質量的數(shù)據(jù)對生成式AI的重要性已經不言而喻。

亞馬遜云科技方面此次表示,如果每個公司都能訪問相同的基礎模型,那么各個公司處于同一起跑線;而能夠利用自身的數(shù)據(jù)構建具有真正商業(yè)價值的生成式AI應用的公司,就贏在了起跑線上。

可以說,生成式AI基礎模型的局限性之一,在于無法及時擁有企業(yè)的專有數(shù)據(jù)。如果想讓模型服務于企業(yè)發(fā)展,那么通過技術手段加速數(shù)據(jù)與模型的結合,就成了企業(yè)數(shù)據(jù)基座的關鍵之一。

陳曉建進一步表示,成功的企業(yè)需要懂業(yè)務、懂用戶的生成式AI應用,而這些應用的構建需要從數(shù)據(jù)做起。他舉了位于美國的人工智能初創(chuàng)公司Perplexity的例子,其通過將傳統(tǒng)搜索、客戶數(shù)據(jù)與大型語言模型相結合,實現(xiàn)了快速增長。

也是因此,這家公司是人工智能領域的“紅人”。據(jù)悉,Perplexity正進行至少2.5億美元的新一輪融資,估值可能達到25億至30億美元。而這家公司在過去四個月中剛剛進行了兩筆大額融資,并且估值實現(xiàn)了飛躍:今年1月,Perplexity以5.4億美元的估值籌集了近7400萬美元;3月初,Perplexity以10億美元的估值融資約6300萬美元。

目前來說,用企業(yè)自身的數(shù)據(jù)去差異化生成式AI應用、通過數(shù)據(jù)定制基礎模型的方式主要分為三大類:檢索增強生成(RAG)、微調、持續(xù)預訓練。這三種方式在不同應用場景中的適用性和對數(shù)據(jù)的要求不同。

亞馬遜云科技的對策

亞馬遜云科技強調了自身在數(shù)據(jù)基座構建方面的三大核心能力:模型微調和預訓練所需的數(shù)據(jù)處理能力、利用專有數(shù)據(jù)與模型快速結合以產生獨特價值的能力,以及有效處理新數(shù)據(jù)以助推生成式AI應用持續(xù)快速發(fā)展的能力。

在數(shù)據(jù)存儲方面,亞馬遜云科技提供的Amazon S3服務可以滿足用戶在微調和預訓練基礎模型時對數(shù)據(jù)存儲的嚴格要求。同時,文件存儲服務的亞毫秒級延遲和高吞吐性能,將進一步加快模型優(yōu)化速度。

數(shù)據(jù)清洗和治理方面,亞馬遜云科技通過 Amazon EMR Serverless和Amazon Glue等服務,幫助企業(yè)高效完成數(shù)據(jù)清理、去重和分詞等操作,使企業(yè)能夠專注于AI業(yè)務創(chuàng)新。

此外,亞馬遜云科技還著重強調了其在向量搜索和無服務器架構方面的創(chuàng)新。其中,檢索增強生成(RAG)技術被普遍認為是實現(xiàn)數(shù)據(jù)與模型結合的主要途徑之一。RAG通過將數(shù)據(jù)轉換為向量并存儲到向量數(shù)據(jù)庫中,從而將語義的關聯(lián)性轉化為向量間的數(shù)學距離問題,以實現(xiàn)內容的關聯(lián)性計算。

向量搜索與數(shù)據(jù)存儲的結合可以帶來多方面的好處,包括更高效和更精確的檢索能力、處理和索引大規(guī)模的數(shù)據(jù)等。目前來說,結合向量搜索和數(shù)據(jù)存儲的優(yōu)勢,可以構建出強大的信息檢索系統(tǒng),滿足現(xiàn)代應用對于速度、準確性、可靠性和智能化的需求。

但這同時也帶來一部分成本問題,比如需要更多的存儲空間。對此,陳曉建告訴《每日經濟新聞》記者,存儲上確實會讓成本有所增加,但能夠在整個數(shù)據(jù)內容檢索時取得更好的效果。

亞馬遜云科技同時表示,自身已在8種數(shù)據(jù)存儲中添加了向量搜索功能??蛻暨€可以通過Amazon Memory DB內存數(shù)據(jù)庫,降低生成式AI應用的模型調用成本和響應延遲。從亞馬遜云科技對生成式AI時代數(shù)據(jù)基座的看重,可以看到數(shù)據(jù)處理的重要性以及企業(yè)在這一領域面臨的挑戰(zhàn)與機遇。對于亞馬遜云科技來說,為AIGC時代的企業(yè)提供更全面的服務也是機遇與挑戰(zhàn)并存。

如需轉載請與《每日經濟新聞》報社聯(lián)系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。

讀者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。

數(shù)據(jù) Ai 亞馬遜

歡迎關注每日經濟新聞APP

每經經濟新聞官方APP

0

0

免费va国产高清不卡大片,笑看风云电视剧,亚洲黄色性爱在线观看,成人 在线 免费