每日經(jīng)濟(jì)新聞 2024-03-19 20:20:19
◎ 馬斯克沒有食言,將大模型Grok開源了。但從深層次看,開源的背后還隱藏著更大的戰(zhàn)略謀劃。
每經(jīng)記者 文巧 每經(jīng)編輯 蘭素英
3月18日,馬斯克旗下大模型公司xAI兌現(xiàn)諾言,正式對Grok-1大模型開源。隨后在X平臺上,馬斯克還不忘嘲諷OpenAI一番,“我們想了解更多OpenAI的開放部分”。
據(jù)悉,Grok-1模型參數(shù)大小為3140億,是迄今為止業(yè)界開源參數(shù)最大的模型。
馬斯克的開源舉措引發(fā)了業(yè)界的廣泛關(guān)注和熱烈討論。表面上,這一舉動像是針對OpenAI的一記“回?fù)?span>”,但從更深的層次來看,還隱藏著馬斯克的戰(zhàn)略謀劃和考量。
據(jù)xAI去年公布的文檔,盡管Grok-1在各個測試集中呈現(xiàn)的效果要比GPT-3.5、Llama2要好,但距離Palm-2、Claude2和GPT-4仍然差了一大截。
因此有分析認(rèn)為,在強(qiáng)敵環(huán)伺,且Grok難以匹敵頂尖大模型的情況下,馬斯克選擇開源是必然之舉,其考量之一可能是將模型迭代進(jìn)化的任務(wù)交給社區(qū)。
開源還是閉源,一直是AI浪潮之下一個極具爭議性的話題。有AI專家此前在接受《每日經(jīng)濟(jì)新聞》記者采訪時認(rèn)為,開源已是大勢所趨。從商業(yè)角度來看,開源不僅能夠避免少數(shù)財力雄厚的科技公司控制前沿模型,對于AI創(chuàng)業(yè)者來說,也進(jìn)一步降低了門檻和成本。
3月18日凌晨,馬斯克旗下大模型公司xAI宣布正式開源3140億參數(shù)的混合專家(MoE)模型Grok-1以及該模型的權(quán)重和網(wǎng)絡(luò)架構(gòu)。截至發(fā)稿,在Github上,該開源項目已經(jīng)攬獲31.6k星標(biāo),足見其火爆程度。
圖片來源:Github
值得注意的是,這是迄今為止業(yè)界開源參數(shù)最大的模型,超過GPT-3.5當(dāng)時1750億的參數(shù)量。
DeepMind工程師Aleksa Gordié預(yù)測,Grok-1的能力應(yīng)該比Llama2要強(qiáng),但目前尚不清楚有多少數(shù)據(jù)受到了污染,二者的參數(shù)量也不是一個量級。
從Grok-1的模型細(xì)節(jié)來看,值得注意的一點是,該基礎(chǔ)模型基于大量文本數(shù)據(jù)進(jìn)行訓(xùn)練,沒有針對任何具體任務(wù)進(jìn)行微調(diào)。而在X平臺上可用的Grok大模型就是微調(diào)過的版本,其行為和原始權(quán)重版本并不相同。也就是說,xAI目前開源的Grok-1模型并不包括X平臺上的語料。
據(jù)xAI去年公布的文檔,從Grok-1的整體測試效果來看,Grok-1在各個測試集中呈現(xiàn)的效果要比GPT-3.5、70億參數(shù)的Llama2和Inflection-1要好,但距離Palm-2、Claude2和GPT-4仍然差了一大截。
圖片來源:xAI
基于此,有分析認(rèn)為,馬斯克開源Grok-1的一個考量是,盡管該模型表現(xiàn)尚可,但“比上不足,比下有余”,并未具備打敗頂尖模型如GPT-4的能力,更別說未來的GPT-5。
在大模型角逐的當(dāng)下,盡管Grok依托X平臺的數(shù)據(jù),但其無論是在能力上,還是知名度上都不具備與OpenAI、谷歌、Anthropic等公司匹敵的優(yōu)勢。尤其是今年以來,谷歌發(fā)布了Gemini,Anthropic發(fā)布了Claude3,大型語言模型的競爭更加激烈,在這樣的情況下,馬斯克選擇開源路線也是必然之舉。
模型開源讓研究者和開發(fā)者可以自由地使用、修改和分發(fā)模型,打開了更多開放合作和創(chuàng)新的可能性。因此,一次性開源可以將迭代進(jìn)化的任務(wù)交給社區(qū)。
正如月之暗面CEO楊植麟在此前接受騰訊采訪時表示,“如果我今天有一個領(lǐng)先的模型,開源出來,大概率不合理。反而是落后者可能會這么做,或者開源小模型,攪局嘛,反正不開源也沒價值。”
再加上馬斯克頻繁諷刺OpenAI并不Open,外媒Venture Beat認(rèn)為,Grok-1的開源顯然對他來說也是一個有益的立場。
不過,針對讓社區(qū)來實現(xiàn)迭代這一目的,有業(yè)內(nèi)人士在X平臺表示,Grok-1的問題可能是模型參數(shù)太大,這需要巨大的計算資源,所以開源社區(qū)可能無法對Grok-1進(jìn)行迭代。
另有評論認(rèn)為,Grok-1沒有對特定任務(wù)進(jìn)行微調(diào),這提高了用戶使用它的門檻。AI工具飽和的市場可能更需要針對特定用例的工具。
開源和閉源是當(dāng)前AI浪潮之下的一個極具爭議性的話題。
紐約大學(xué)坦登工程學(xué)院計算機(jī)科學(xué)與工程系副教授Julian Togelius在此前接受《每日經(jīng)濟(jì)新聞》記者采訪時曾認(rèn)為,開源是業(yè)界大勢所趨,Meta正在引領(lǐng)這一趨勢,其次是Mistral AI、HuggingFace等規(guī)模較小的公司。谷歌今年2月罕見地改變了去年堅持的大模型閉源策略,推出了“開源”大模型Gemma,似乎也是對Togelius言論的驗證。
從技術(shù)視角來看,開源代碼可以提高透明度并有助于推進(jìn)技術(shù)發(fā)展,也能幫助了解模型弱點,這樣才能更好地部署模型,從而降低風(fēng)險。另一方面,也有不少反對開源的一派認(rèn)為,開源AI會被不良行為者操縱從而造成風(fēng)險。
從商業(yè)角度來看,Julian Togelius認(rèn)為開源對防止權(quán)力集中很重要,能夠避免少數(shù)財力雄厚的科技公司控制前沿模型。此外,還有分析認(rèn)為,對于創(chuàng)業(yè)者來說,開源大模型則進(jìn)一步降低了創(chuàng)業(yè)門檻,降低了大模型的開發(fā)成本,讓更多創(chuàng)業(yè)者在基礎(chǔ)模型方面處于同一起跑線上。
例如,目前許多開源模型都是基于Meta的開源模型Llama2而開發(fā)。據(jù)報道,截至2023年底,HuggingFace上開源的大模型排行榜前十名中,有8個是基于Llama2打造的,使用Llama2的開源大模型已經(jīng)超過1500個。
Grok-1的權(quán)重和架構(gòu)是在寬松的Apache 2.0許可下發(fā)布的,這使得研究者和開發(fā)者可以自由地使用、修改和分發(fā)模型,這種開源方式可以適應(yīng)多種不同的任務(wù)和應(yīng)用場景,更適合那些想要用開源模型打造自己專有模型的開發(fā)者。因此,有分析認(rèn)為,Grok-1的開源也是為許多AI初創(chuàng)公司提供了另一個選擇。
例如,AI初創(chuàng)公司Abacus AI的CEO就在X平臺上表示,將開始研究Grok-1,并在幾周內(nèi)進(jìn)行更新/發(fā)布。
圖片來源:X平臺
對話搜索引擎公司Perplexity CEO Aravind Srinivas也在X平臺上發(fā)文稱,將會基于Grok的基礎(chǔ)模型進(jìn)行對話式搜索和推理的微調(diào)。
圖片來源:X平臺
隨著開源力量的不斷壯大,馬薩諸塞大學(xué)洛厄爾分校計算機(jī)科學(xué)教授Jie Wang曾對《每日經(jīng)濟(jì)新聞》記者表示,未來各個主要參與者可能都傾向于采用半開源的方式,類似Meta開源Llama2系列大模型的方式,即開源模型的某些部分,以便研究人員和開發(fā)人員了解模型的架構(gòu)和訓(xùn)練過程,但保留最重要的部分,例如用于訓(xùn)練和預(yù)訓(xùn)練模型權(quán)重的完整數(shù)據(jù)集。
Grok-1走的也是這樣的路線。
知名機(jī)器學(xué)習(xí)研究者Sebastian Raschka認(rèn)為,“盡管Grok-1比其他通常帶有使用限制的開放權(quán)重模型更加開源,但是它的開源程度不如Pythia、Bloom和OLMo,后者附帶訓(xùn)練代碼和可復(fù)現(xiàn)的數(shù)據(jù)集。”
圖片來源:X平臺
封面圖片來源:新華社記者 韓傳號 攝
如需轉(zhuǎn)載請與《每日經(jīng)濟(jì)新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP