每日經(jīng)濟新聞
要聞

每經(jīng)網(wǎng)首頁 > 要聞 > 正文

iPhone就能跑!微軟推出輕量級模型Phi-3,性能堪比GPT-3.5 Turbo,AI的未來在手機端?

每日經(jīng)濟新聞 2024-04-25 13:08:00

每經(jīng)記者 李孟林    每經(jīng)編輯 何小桃 蘭素英    

“大模界”是每日經(jīng)濟新聞推出一檔專注生成式AI與大模型技術(shù)的前沿科技報道欄目。

在這里,我們將聚焦生成式AI技術(shù)浪潮,展現(xiàn)從文字、圖像、音頻、視頻的大模型如何編織數(shù)字化世界。

在這里,我們將解碼、評測國內(nèi)外各類大模型,探究它們?nèi)绾纬蔀樽兏锔餍懈鳂I(yè)的重要力量。

在這里,我們將關(guān)注AIGC行業(yè)發(fā)展,聯(lián)手行業(yè)領軍人物和頂尖專家,共同揭示最新產(chǎn)品創(chuàng)新和技術(shù)突破,前瞻未來發(fā)展趨勢。

歡迎關(guān)注“大模界”,您將見證AIGC如何重塑內(nèi)容生態(tài),如何以前沿之力推動社會進步。讓我們共同開啟一場關(guān)于AI新紀元的無限旅程!

當?shù)貢r間4月23日,微軟推出了開源輕量級AI模型Phi-3系列,宣稱這是目前市面上性能最強、最具性價比的“小語言模型”。

該系列的最小版本Phi-3-mini雖然參數(shù)規(guī)模僅有38億,但卻展現(xiàn)了超越參數(shù)規(guī)模大一倍多的模型的性能,在多項基準測試中比Meta的Llama 3 8B更優(yōu)異,而Phi-3-small和Phi-3-medium這兩個版本甚至可以超越GPT-3.5 Turbo。

更令人矚目的是,Phi-3-mini對內(nèi)存的占用極少,可在iPhone 14搭載的A16 Bionic芯片上實現(xiàn)每秒12個token的生成速度,這意味著這款模型不用聯(lián)網(wǎng),可以直接在手機上運行。不僅如此,據(jù)透露,Phi-3的成本或只有同等性能模型的十分之一。

這樣的模型對于網(wǎng)絡資源受限或需要離線推理的場景來說,無疑是一大好消息。據(jù)微軟介紹,印度企業(yè)已經(jīng)開始用Phi-3模型來幫助資源緊缺的農(nóng)民解決生產(chǎn)生活問題。但Phi-3系列并非沒有缺點,其在事實性知識方面的表現(xiàn)并不理想,不過微軟已經(jīng)找到了相應的緩解之道。

CFF20LXzkOwNfsay86cib4p0S2T0NfBIZicSMl7tYnKBaibmLibs8uIQI1mZYasibU5KFf6wlMM5EENdMic3ibFTHCmUw.png

手機上能跑的GPT-3.5級別模型

當?shù)貢r間4月23日,微軟推出了開源輕量級AI模型Phi-3-mini,這是其Phi家族的第4代模型。Phi-3-mini是Phi-3系列中最小的,參數(shù)只有38億,未來幾周內(nèi),微軟還將推出該系列的另外兩個版本Phi-3-small(70億參數(shù))和Phi-3-medium(140億參數(shù))。

“Phi-3模型是現(xiàn)有功能最強大、最具性價比的小語言模型(SLM),在各種語言、推理、編碼和數(shù)學基準測試中,其性能優(yōu)于相同大小和規(guī)模大一級的模型。”微軟方面表示。

具體來看,Phi-3-mini采用了transformer架構(gòu),支持4K和128K上下文窗口,也是同類小模型中第一個支持128K的開源產(chǎn)品。

性能上,Phi-3-mini在多項基準測試中超過了參數(shù)規(guī)模大一倍多的Llama 3 8B(80億參數(shù)),而Phi-3-small和Phi-3-medium超過了很多尺寸大得多的模型,如GPT-3.5 Turbo,而后者的參數(shù)規(guī)模高達1750億。

CFF20LXzkOyWeb7LTTL1lw213MtxCMIibMtWibzo1CnmM1I4zSqjJXibiaOXEcgJChI6qMq3tibOtF0AUOqRAvIEcibg.jpg

圖片來源:微軟

由于Phi-3-mini對內(nèi)存的占用極少,經(jīng)過壓縮后總體積可以大幅縮減至1.8GB,可在iPhone 14搭載的A16 Bionic芯片上實現(xiàn)每秒12個token的生成速度,意味著這款模型不用聯(lián)網(wǎng),可以直接在手機上運行。

Phi-3系列的驚艷表現(xiàn)來自于其訓練方式。微軟生成式AI研究院(GenAI Resaerch)副總裁Sébastien Bubeck表示,微軟在開發(fā)Phi-3時力圖確保輸入的是高質(zhì)量數(shù)據(jù)訓練集。

微軟技術(shù)報告顯示,開發(fā)人員開發(fā)Phi-3時使用了3.3T tokens數(shù)據(jù)集,包括經(jīng)過嚴格質(zhì)量篩選的網(wǎng)絡公開文檔、精選的高質(zhì)量教育數(shù)據(jù)和編程代碼。此外,還有AI自己生成的“合成數(shù)據(jù)”,如數(shù)學、編碼、常識推理、世界常識、心理科學等。高質(zhì)量數(shù)據(jù),再輔以獨特的指令微調(diào)和RLHF訓練,大幅提高了小語言模型的性能。

當然,Phi-3系列也有其缺點,這主要體現(xiàn)在事實性知識上,在相關(guān)的基準測試如TriviaQA上的表現(xiàn)就不如人意。不過,開發(fā)語言模型是性能和尺寸的平衡。微軟透露,Phi-3模型本身參數(shù)中沒能力存儲太多事實和知識,這一缺點的緩解方式是聯(lián)網(wǎng)接入搜索引擎增強。

CFF20LXzkOwNfsay86cib4p0S2T0NfBIZicSMl7tYnKBaibmLibs8uIQI1mZYasibU5KFf6wlMM5EENdMic3ibFTHCmUw.png

可離線使用

成本只有類似性能模型的十分之一

傳統(tǒng)觀點認為,大語言模型的關(guān)鍵點就在于“大”,參數(shù)越大,訓練數(shù)據(jù)體積越大,性能就更強。微軟推出輕量級的小語言模型,用意何在呢?

據(jù)微軟自己的說法,像Phi-3這樣的小語言模型特別適合以下場景:網(wǎng)絡資源受限,需要在終端設備上推理或者離線推理的場景;需要避免延遲,快速響應至關(guān)重要的場景;成本受限的場景,特別是那些較為簡單的任務。

Phi-3能夠在手機上離線運行,成本大幅降低,從而大大降低了AI的實際使用門檻。

微軟高管Eric Boyd就表示,企業(yè)客戶經(jīng)常發(fā)現(xiàn)像Phi-3這樣的小模型更適合他們的定制應用程序,因為企業(yè)的內(nèi)部數(shù)據(jù)集本來就規(guī)模不大,而且小模型需要的算力更少,成本也更為便宜。

“Phi-3的價格不是稍微便宜一點,而是便宜得多,與具有類似功能的其他型號相比,成本差異可能是10倍的范圍,”微軟的Sébastien Bubeck對路透社表示。

微軟已經(jīng)在探索如何在資源有限的情況下應用Phi-3。據(jù)其介紹,總部位于印度的商業(yè)集團ITC,正在與微軟合作將Phi-3用于農(nóng)業(yè)領域,共同開發(fā)面向農(nóng)民的應用程序Krishi Mitra,這一程序的覆蓋范圍達100萬農(nóng)民。

據(jù)悉,農(nóng)民可以用當?shù)卣Z言向Krishi Mitra提問,該應用程序會立即以用戶的本地語言提供詳細的個性化響應,幫助他們解決農(nóng)作物管理、病蟲害控制、土壤健康、水資源保護、天氣預報、市場聯(lián)系和政府計劃等相關(guān)問題。

記者|李孟林

編輯|何小桃 蘭素英?蓋源源

校對|盧祥勇

CFF20LXzkOyYmal29zn37N5Bg2NQ4tyN4ylvMFyM3VmF4x90Uj4cDmoEphibia4RN55ibIXmqU1Od9w2Q5nhA08lA.png|每日經(jīng)濟新聞 ?nbdnews??原創(chuàng)文章|

未經(jīng)許可禁止轉(zhuǎn)載、摘編、復制及鏡像等使用

如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權(quán),嚴禁轉(zhuǎn)載或鏡像,違者必究。

讀者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。

歡迎關(guān)注每日經(jīng)濟新聞APP

每經(jīng)經(jīng)濟新聞官方APP

0

0

免费va国产高清不卡大片,笑看风云电视剧,亚洲黄色性爱在线观看,成人 在线 免费