每日經(jīng)濟(jì)新聞 2024-12-31 19:19:07
深度求索DeepSeek-V3模型在業(yè)界掀起波瀾。據(jù)悉,該模型采用數(shù)據(jù)蒸餾技術(shù),將復(fù)雜數(shù)據(jù)簡化為高質(zhì)量數(shù)據(jù),提升了訓(xùn)練效果。然而,有學(xué)者指出,蒸餾技術(shù)雖能提高效率,但可能導(dǎo)致“學(xué)生模型”無法超越“教師模型”,甚至影響創(chuàng)新。此外,DeepSeek-V3曾出現(xiàn)“自稱是ChatGPT”的幻覺問題,引發(fā)外界對(duì)其訓(xùn)練數(shù)據(jù)來源的質(zhì)疑。專家強(qiáng)調(diào),確保高質(zhì)量AI的關(guān)鍵在于提供真實(shí)世界的高質(zhì)量數(shù)據(jù)。
每經(jīng)記者 鄭雨航 每經(jīng)實(shí)習(xí)記者 岳楚鵬 每經(jīng)編輯 蘭素英
最近大火的深度求索DeepSeek-V3模型僅用557萬美元的訓(xùn)練費(fèi)用,就達(dá)到了頂尖模型的效果,而且產(chǎn)品價(jià)格低廉,因此被網(wǎng)友們戲稱為大模型界的“拼多多”。國外獨(dú)立評(píng)測(cè)機(jī)構(gòu)Artificial Analysis在測(cè)試后聲稱,DeepSeek-V3超越了迄今為止所有開源模型。
DeepSeek-V3的訓(xùn)練僅使用2048個(gè)H800 GPU,總訓(xùn)練GPU卡時(shí)為2788千小時(shí)(其中預(yù)訓(xùn)練為2664千小時(shí))。與之相對(duì)比,根據(jù)黃仁勛在GTC2024上的演講內(nèi)容,GPT-4 MoE使用8000個(gè)H100訓(xùn)練了90天,合計(jì)約為17280千卡時(shí),相當(dāng)于DeepSeek-V3的6.2倍。
DeepSeek-V3訓(xùn)練提效的原因主要包括:低精度計(jì)算、小參數(shù)量和高質(zhì)量數(shù)據(jù)等。據(jù)DeepSeek-V3的技術(shù)文檔,該模型使用數(shù)據(jù)蒸餾技術(shù)(Distillation)生成的高質(zhì)量數(shù)據(jù)提升了訓(xùn)練效率。數(shù)據(jù)蒸餾指的是通過一系列算法和策略,將原始的、復(fù)雜的數(shù)據(jù)進(jìn)行去噪、降維、提煉等操作,從而得到更為精煉、有用的數(shù)據(jù)。
不過,蒸餾技術(shù)并不是十全十美。有學(xué)者認(rèn)為,蒸餾技術(shù)雖然可以提高模型訓(xùn)練效率,但借此開發(fā)的模型無法超越基礎(chǔ)模型的能力,在多模態(tài)數(shù)據(jù)方面效果不好,而且會(huì)導(dǎo)致研發(fā)人員為了快速取得成果而放棄對(duì)基礎(chǔ)模型的探索。
針對(duì)AI訓(xùn)練可能使用合成數(shù)據(jù)(大模型生成數(shù)據(jù))這一話題,倫敦大學(xué)學(xué)院(UCL)名譽(yù)教授和計(jì)算機(jī)科學(xué)家彼得·本特利對(duì)《每日經(jīng)濟(jì)新聞》記者表達(dá)了擔(dān)憂,稱“如果繼續(xù)在其他AI的輸出上訓(xùn)練AI,結(jié)果可能是模型崩潰。確保高質(zhì)量AI的唯一方法是,為其提供人類的高質(zhì)量內(nèi)容。”
圖片來源:AI生成
根據(jù)DeepSeek-V3的技術(shù)文檔,針對(duì)推理相關(guān)數(shù)據(jù)集(如數(shù)學(xué)、代碼競(jìng)賽、邏輯謎題等),DeepSeek-V3利用之前訓(xùn)練好的 DeepSeek-R1模型生成數(shù)據(jù)后,再使用結(jié)合了監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練的專家模型來蒸餾生成最終的數(shù)據(jù)。針對(duì)非推理數(shù)據(jù)(如創(chuàng)意寫作、角色扮演、簡單問答等),使用DeepSeek-V2.5生成回復(fù),并由人類驗(yàn)證數(shù)據(jù)的準(zhǔn)確性和正確性。這些高質(zhì)量數(shù)據(jù)幫助提升了V3的訓(xùn)練效率,并提高了模型適應(yīng)能力。
數(shù)據(jù)蒸餾是什么?每經(jīng)記者查詢發(fā)現(xiàn),蒸餾技術(shù)并不是新出現(xiàn)的事物,早在2015年,諾獎(jiǎng)得主杰弗里·辛頓(Geoffrey Hinton)就提出了蒸餾(Distillation)這一思想。
圖片來源:arxiv
南洋理工大學(xué)計(jì)算機(jī)研究人員王漢卿向每經(jīng)記者表示,在谷歌提出劃時(shí)代的Transformer模型之前,大家都是在優(yōu)化小模型,這里加點(diǎn)東西,那里加點(diǎn)東西,模型的變化都不大,此時(shí),蒸餾就是主要的優(yōu)化手段。
數(shù)據(jù)蒸餾的目的是將復(fù)雜模型的知識(shí)提煉到簡單模型。這一想法是通過已有的高質(zhì)量模型來合成少量高質(zhì)量數(shù)據(jù),作為新模型的訓(xùn)練數(shù)據(jù),從而達(dá)到接近于在原始數(shù)據(jù)上訓(xùn)練的效果。
以前的大模型訓(xùn)練相當(dāng)于使用題海戰(zhàn)術(shù),在大量的數(shù)據(jù)中訓(xùn)練,而蒸餾就相當(dāng)于讓在題海戰(zhàn)術(shù)里磨練過的優(yōu)秀大模型充當(dāng)新模型的老師,篩選出有效題目,再讓新的大模型訓(xùn)練。因此前一個(gè)模型在業(yè)界常被稱為“教師模型”,后一個(gè)模型常被稱為“學(xué)生模型”。
除此之外,DeepSeek-V3還利用蒸餾技術(shù)進(jìn)行了知識(shí)蒸餾。
圖片來源:DeepSeek-V3技術(shù)文檔
王漢卿對(duì)每經(jīng)記者解釋道,知識(shí)蒸餾簡單來講,就是你有一個(gè)訓(xùn)練好的大模型M和一個(gè)準(zhǔn)備訓(xùn)練的小模型m,假設(shè)輸入是x,你需要讓m(x)盡可能接近M(x)這個(gè)結(jié)果,就像是已經(jīng)提前知道了一道題的答案,只需要根據(jù)答案去解題就行了,而不需要做繁瑣的試錯(cuò)流程。
有業(yè)內(nèi)人士對(duì)每經(jīng)記者補(bǔ)充道,這就是一個(gè)取長補(bǔ)短的過程,通過學(xué)習(xí)優(yōu)秀大模型好的部分來提升新模型的能力。
DeepSeek-V3的技術(shù)報(bào)告也明確表示,他們提出了一種創(chuàng)新方法,將推理能力從長鏈思維(Chain-of-Thought,CoT)模型(DeepSeek R1)中提取出來,并轉(zhuǎn)移到標(biāo)準(zhǔn)的大型語言模型(DeepSeek-V3)。這一流程巧妙地將R1的驗(yàn)證和反思模式融合到DeepSeek-V3中,顯著提高了其推理性能。同時(shí),還保持對(duì)DeepSeek-V3輸出風(fēng)格和長度的控制。
如果蒸餾技術(shù)這么好用,是否意味著大模型的訓(xùn)練要轉(zhuǎn)向了?
倫敦大學(xué)學(xué)院(UCL)名譽(yù)教授和計(jì)算機(jī)科學(xué)家彼得·本特利在接受每經(jīng)記者采訪時(shí)表示:“這可能會(huì)對(duì)小機(jī)構(gòu)的(研究)進(jìn)展產(chǎn)生重大影響,這些機(jī)構(gòu)不像OpenAI或谷歌那樣擁有巨額預(yù)算。”
但這并不意味著,蒸餾技術(shù)就是一個(gè)十全十美的事物。王漢卿向每經(jīng)記者表示,“我認(rèn)識(shí)的(一線研究人員)基本沒人搞(蒸餾)了。”目前優(yōu)化大模型的方法是量化,比如降精度或是降緩存。DeepSeek-V3的技術(shù)報(bào)告也提到了使用FP8混合精度訓(xùn)練框架降低進(jìn)度和通過壓縮鍵值來降低緩存的方法。
據(jù)他解釋,蒸餾技術(shù)存在一個(gè)巨大缺陷,就是被訓(xùn)練的模型(即“學(xué)生模型”)沒法真正超越“教師模型”。有研究表明,通過蒸餾訓(xùn)練的模型總是受到其“教師模型”能力的限制,這會(huì)產(chǎn)生一種隱性天花板效應(yīng),無論蒸餾過程多么復(fù)雜,都無法真正超越原始模型的能力。當(dāng)考慮到需要將能力擴(kuò)展到新領(lǐng)域或應(yīng)對(duì)以前從未見過的挑戰(zhàn)時(shí),這種限制就愈發(fā)成為問題。
有業(yè)內(nèi)人士也向每經(jīng)記者表示,你永遠(yuǎn)無法從一本書的厚度里學(xué)到10本書的厚度。
上海交通大學(xué)副教授劉鵬飛在一篇學(xué)術(shù)報(bào)告中提到:“蒸餾技術(shù)為在數(shù)學(xué)推理任務(wù)中取得顯著性能提升提供了一條誘人的捷徑。雖然這種方法帶來了直接且可見的好處,但它掩蓋了一系列深刻的挑戰(zhàn)。”
表面上,模型可以通過相對(duì)簡單的方法快速實(shí)現(xiàn)令人印象深刻的性能改進(jìn),但它永遠(yuǎn)無法超越原始模型的能力。更深層次看,它可能改變研究文化,導(dǎo)致研究者更傾向于捷徑而非根本性解決方案,以及侵蝕問題解決的基本技能。最終,過度依賴蒸餾可能會(huì)扼殺AI領(lǐng)域中新穎的、具有變革性的創(chuàng)意。AI模型的真正突破不僅在于它能夠解決復(fù)雜問題,而在于背后所拓展的復(fù)雜機(jī)制。
盡管DeepSeek-V3在基準(zhǔn)測(cè)試中表現(xiàn)良好,但每經(jīng)記者在使用過程中發(fā)現(xiàn),DeepSeek-V3竟然聲稱自己是ChatGPT。一時(shí)間,“DeepSeek-V3是否在使用ChatGPT輸出內(nèi)容進(jìn)行訓(xùn)練”的質(zhì)疑聲四起。
圖片來源:每經(jīng)記者試用DeepSeek-V3截圖
每經(jīng)記者采訪到接近幻方人士,詢問“DeepSeek-V3大模型是否有使用ChatGPT輸出內(nèi)容訓(xùn)練?如果不是,該模型的內(nèi)容是如何進(jìn)行訓(xùn)練的?”上述相關(guān)人士對(duì)此回復(fù):“網(wǎng)上有很多寫的很好的答案,去搜下就知道了。”
在每經(jīng)記者的追問下,該人士指出,“不是兩句話能說清楚的……你問的問題太復(fù)雜,不是業(yè)內(nèi)做研究的人很難短時(shí)間理解。”
南洋理工大學(xué)研究人員王漢卿則向每經(jīng)記者解釋稱,有三種可能性,一是數(shù)據(jù)來源里包含ChatGPT(的輸出內(nèi)容),二是使用了GPT模型做蒸餾,三是在強(qiáng)化學(xué)習(xí)流程中出現(xiàn)了錯(cuò)誤。
本特利在采訪中提到,“對(duì)DeepSeek-V3進(jìn)行實(shí)驗(yàn)的研究人員認(rèn)為,這種新模型可能根據(jù)OpenAI等公司的模型輸出進(jìn)行了訓(xùn)練。這可能是使用所謂的‘無版權(quán)’數(shù)據(jù)的一種簡單方法,但這不是一個(gè)好主意?;ヂ?lián)網(wǎng)上越來越多地充斥著‘AI垃圾’——大量AI生成的文本和圖像(以及很快的視頻)質(zhì)量很差。研究表明,如果繼續(xù)在其他AI的輸出上訓(xùn)練AI,結(jié)果可能是模型崩潰——AI會(huì)與現(xiàn)實(shí)失去聯(lián)系,并繼續(xù)輸出質(zhì)量差、相似的內(nèi)容。”
他對(duì)每經(jīng)記者強(qiáng)調(diào),“確保高質(zhì)量AI的唯一方法是,為其提供人類的高質(zhì)量內(nèi)容,例如人類編寫的真實(shí)文本、人類繪制或拍攝的真實(shí)圖像、人類錄制或創(chuàng)作的真實(shí)音頻。如果想讓AI理解我們的世界,數(shù)據(jù)需要來自真實(shí)的物理世界。否則,AI就會(huì)開始胡思亂想。”
免責(zé)聲明:本文內(nèi)容與數(shù)據(jù)僅供參考,不構(gòu)成投資建議,使用前請(qǐng)核實(shí)。據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP