每日經(jīng)濟(jì)新聞 2025-04-08 18:34:42
當(dāng)?shù)貢r(shí)間4月5日,Meta宣布推出新一代開源大模型Llama 4,稱其在基準(zhǔn)測(cè)試中領(lǐng)先同行,但開發(fā)者實(shí)測(cè)發(fā)現(xiàn)其效果不佳,甚至問題百出,質(zhì)疑其作弊“刷榜”。Meta深陷輿論漩渦。對(duì)此,Meta緊急辟謠,稱相關(guān)說(shuō)法毫無(wú)事實(shí)依據(jù)。
每經(jīng)記者 宋欣悅 每經(jīng)編輯 蘭素英
當(dāng)?shù)貢r(shí)間4月5日,美國(guó)科技巨頭Meta宣布推出其新一代開源大模型Llama 4。Llama 4目前有兩個(gè)混合專家(MoE)架構(gòu)的版本,分別為Scout和Maverick。更為強(qiáng)大的Llama 4 Behemoth仍在訓(xùn)練中。
Meta官方稱,Llama 4在一系列廣泛接受的基準(zhǔn)測(cè)試中均實(shí)現(xiàn)了領(lǐng)先同行的水平,尤其是Llama 4 Behemoth,在多個(gè)基準(zhǔn)測(cè)試中的表現(xiàn)要優(yōu)于GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro等一眾行業(yè)頂尖封閉模型。
然而,就在模型發(fā)布后不久,鋪天蓋地的質(zhì)疑聲涌來(lái)。開發(fā)者實(shí)測(cè)Llama 4后發(fā)現(xiàn),其真實(shí)效果并不如宣傳中那么驚艷,甚至問題百出。
與此同時(shí),有開發(fā)者質(zhì)疑Meta作弊“刷榜”,根據(jù)相關(guān)評(píng)測(cè)基準(zhǔn)對(duì)模型進(jìn)行“量身定制”訓(xùn)練。
知名科技媒體TechCrunch也發(fā)文,直指Meta新AI模型的性能測(cè)試“具有一定誤導(dǎo)性”。
Meta深陷輿論漩渦之中。對(duì)于外界的質(zhì)疑,當(dāng)?shù)貢r(shí)間4月7日,Meta生成式AI副總裁艾哈邁德·阿爾·達(dá)赫勒(Ahmad Al-Dahle)在社交平臺(tái)X上公開回應(yīng),明確指出相關(guān)說(shuō)法毫無(wú)事實(shí)依據(jù)。
圖片來(lái)源:Meta官網(wǎng)
據(jù)Meta介紹,Llama 4模型家族使用了混合專家(MoE)架構(gòu),原生支持多模態(tài),實(shí)力超強(qiáng),堪稱“全能選手”。
其中,Llama 4 Scout擁有170億活躍參數(shù)以及16個(gè)專家模塊,提供長(zhǎng)達(dá)1000萬(wàn)tokens上下文窗口。在多項(xiàng)基準(zhǔn)測(cè)試中,Scout的表現(xiàn)優(yōu)于Gemma 3和Gemini 2.0 Flash-Lite等模型。
Llama 4 Maverick同樣擁有170億活躍參數(shù),專家模塊數(shù)量提升至128個(gè)。在多項(xiàng)主流基準(zhǔn)測(cè)試中,其成績(jī)超越了GPT-4o和Gemini 2.0 Flash。Meta還特意點(diǎn)名DeepSeek,強(qiáng)調(diào)在推理和編碼方面,Llama 4 Maverick可以比肩DeepSeek新開源的V3模型,而其活躍參數(shù)還不到DeepSeek新版V3的一半。
被Meta稱為“世界上最聰明的模型之一”的Llama 4 Behemoth則擁有2880億活躍參數(shù)和16個(gè)專家模塊。在多項(xiàng)主流基準(zhǔn)測(cè)試中,其性能表優(yōu)于GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro等行業(yè)頂尖模型。
圖片來(lái)源:Meta官網(wǎng)
而在大模型競(jìng)技場(chǎng)上,Llama 4 Maverick表現(xiàn)奪目,總排名位居第二,成為第四個(gè)突破1400分的大模型。在開源模型中,Llama 4 Maverick排名第一,超越了DeepSeek。
在困難提示詞、編程、數(shù)學(xué)、創(chuàng)意寫作等任務(wù)的比拼中,Llama 4 Maverick均斬獲第一名。相較于自家前代產(chǎn)品Llama 3(405B)獲得的1268分,Llama 4 Maverick的得分實(shí)現(xiàn)大幅躍升,達(dá)到了1417分。
圖片來(lái)源:大模型競(jìng)技場(chǎng)
這本應(yīng)是開源社區(qū)的又一狂歡。但開發(fā)者們實(shí)測(cè)發(fā)現(xiàn),Llama 4的效果并不像官方宣稱的那樣驚艷,甚至可以說(shuō)是問題百出。
Menlo Ventures風(fēng)險(xiǎn)投資人迪迪·達(dá)斯(Deedy Das)直言,“Llama 4實(shí)際上是一個(gè)糟糕的編程模型。”
達(dá)斯指出,在專注于編程任務(wù)(如代碼生成和代碼補(bǔ)全)的KCORES基準(zhǔn)測(cè)試中,Llama 4 Scout和Llama 4 Maverick表現(xiàn)欠佳,落后于GPT-4o、Grok 3、DeepSeek-V3等模型。
圖片來(lái)源:KCORES LLM Arena
這與此前Llama 4在大模型競(jìng)技場(chǎng)的表現(xiàn)形成鮮明反差。
有網(wǎng)友直接曝出,Llama 4在大模型競(jìng)技場(chǎng)上存在過擬合現(xiàn)象,有極大的作弊“刷榜”嫌疑。
在一些實(shí)測(cè)中,Llama 4在上下文任務(wù)的實(shí)際表現(xiàn)遠(yuǎn)低于預(yù)期。Llama 4 Maverick在aider多語(yǔ)言編碼基準(zhǔn)測(cè)試中的實(shí)測(cè)得分僅為16%。
Abacus.AI首席執(zhí)行官賓杜?雷迪(Bindu Reddy)評(píng)論道:“人類的評(píng)估已經(jīng)毫無(wú)意義了……根據(jù)現(xiàn)實(shí)世界的表現(xiàn),Llama 4 Maverick應(yīng)該遠(yuǎn)遠(yuǎn)排不上第一或第二。”
大模型競(jìng)技場(chǎng)官方也下場(chǎng)“補(bǔ)刀”,指出Meta在大模型競(jìng)技場(chǎng)使用的并非HuggingFace上供開發(fā)者使用的Llama 4版本,而是“針對(duì)人類偏好進(jìn)行優(yōu)化的定制模型Llama-4-Maverick-03-26-Experimental”。
大模型競(jìng)技場(chǎng)官方要求Meta對(duì)此事作出澄清,并強(qiáng)調(diào)其排行榜結(jié)果準(zhǔn)確可靠,后續(xù)將對(duì)Llama 4重新進(jìn)行評(píng)測(cè)。
圖片來(lái)源:X
知名科技媒體TechCrunch也發(fā)文,標(biāo)題直言Meta新AI模型的性能測(cè)試“具有一定誤導(dǎo)性”。
文章指出,針對(duì)基準(zhǔn)測(cè)試優(yōu)化特定版本去打榜,卻給開發(fā)者提供“基礎(chǔ)版”的做法,讓開發(fā)者難以依據(jù)榜單排名準(zhǔn)確預(yù)估模型在實(shí)際應(yīng)用場(chǎng)景中的真實(shí)表現(xiàn)。
《每日經(jīng)濟(jì)新聞》記者發(fā)現(xiàn),在Llama官網(wǎng)提供的性能對(duì)比測(cè)試圖的最下面,寫著其在大模型競(jìng)技場(chǎng)上使用的是專門針對(duì)對(duì)話場(chǎng)景優(yōu)化的Llama 4 Maverick版本。不過,這一信息的字體極小,很難被注意到。
圖片來(lái)源:X
就在Llama 4被集體質(zhì)疑之時(shí),內(nèi)部員工的一則爆料帖子,讓Meta陷入了更深的輿論漩渦之中。
4月7日,在海外留學(xué)求職交流論壇“一畝三分地”上,一位自稱參與了Llama 4訓(xùn)練的內(nèi)部員工爆料稱,Llama 4模型訓(xùn)練測(cè)試集作弊,并表示自己已因此辭職。
圖片來(lái)源:一畝三分地
該員工透露,盡管團(tuán)隊(duì)反復(fù)努力訓(xùn)練,Llama 4的內(nèi)部模型性能始終無(wú)法達(dá)到開源SOTA(State-of-the-Art,頂尖水平)基準(zhǔn),且差距明顯。為達(dá)成目標(biāo),公司領(lǐng)導(dǎo)層提出在訓(xùn)練后期將各種基準(zhǔn)測(cè)試的測(cè)試集數(shù)據(jù)混入訓(xùn)練或微調(diào)數(shù)據(jù)中,以此在各項(xiàng)指標(biāo)上達(dá)成目標(biāo),交出一份“好看”的成績(jī)單。
這位內(nèi)部員工表示,自己無(wú)法接受公司這種做法,甚至辭職信中明確要求不要在Llama 4技術(shù)報(bào)告中掛名。
就在Llama 4發(fā)布前幾天,Meta AI研究主管喬爾·皮諾(Joelle Pineau)在工作8年之后突然宣布離職。
不過,由于發(fā)帖人并未實(shí)名,該帖子的真實(shí)性暫無(wú)法核實(shí)。在帖子下方評(píng)論區(qū),已有數(shù)名Meta員工實(shí)名進(jìn)行辟謠。
Meta研究科學(xué)家主管Licheng Yu稱,團(tuán)隊(duì)絕不存在針對(duì)測(cè)試集過擬合訓(xùn)練的情況。
圖片來(lái)源:一畝三分地
另一位Meta高級(jí)AI研究科學(xué)家Di Jin也反駁道:“我參與了微調(diào)和強(qiáng)化學(xué)習(xí)的數(shù)據(jù)混合工作,并沒有這種(將基準(zhǔn)測(cè)試的測(cè)試集數(shù)據(jù)混入訓(xùn)練或微調(diào)數(shù)據(jù))情況。”
并且,Di Jin還指出,近期離職的AI研究主管喬爾?皮諾,實(shí)則并非Meta GenAI團(tuán)隊(duì)成員,沒有參與GenAI的任何模型訓(xùn)練工作。
圖片來(lái)源:一畝三分地
根據(jù)Meta的組織架構(gòu)體系,喬爾?皮諾是FAIR的副總裁,而FAIR實(shí)際上是Meta內(nèi)部與GenAI完全獨(dú)立的組織,GenAI才是負(fù)責(zé)Llama項(xiàng)目的組織。
針對(duì)外界對(duì)Llama 4模型的諸多質(zhì)疑,當(dāng)?shù)貢r(shí)間4月7日,Meta生成式AI副總裁艾哈邁德·阿爾·達(dá)赫勒(Ahmad Al-Dahle)在社交平臺(tái)X上公開回應(yīng),明確指出相關(guān)說(shuō)法毫無(wú)事實(shí)依據(jù)。
同時(shí),達(dá)赫勒指出,部分用戶通過不同云服務(wù)商使用Llama 4模型時(shí),遭遇了質(zhì)量不穩(wěn)定問題。他對(duì)此解釋道:“由于我們?cè)谀P蜏?zhǔn)備好后就迅速發(fā)布,因此預(yù)計(jì)需要幾天的時(shí)間來(lái)調(diào)整所有公開版本。后續(xù),Meta將持續(xù)進(jìn)行錯(cuò)誤修復(fù)工作,并與合作伙伴保持溝通。”
圖片來(lái)源:X
此外,Meta首席AI科學(xué)家、圖靈獎(jiǎng)得主Yann LeCun也轉(zhuǎn)發(fā)了該帖子,為L(zhǎng)lama 4聲援“站臺(tái)”。
圖片來(lái)源:X
如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP