每日經(jīng)濟新聞
要聞

每經(jīng)網(wǎng)首頁 > 要聞 > 正文

高質(zhì)量數(shù)據(jù)“被榨干”,OpenAI員工爆料:新模型“沒有那么大飛躍”,公司正調(diào)整策略

每日經(jīng)濟新聞 2024-11-11 18:51:04

◎ 近日,OpenAI的下一代旗艦模型Orion可能不會像前面幾代產(chǎn)品那樣帶來巨大的飛躍。該模型雖優(yōu)于現(xiàn)有模型,但進步幅度遠不及GPT-3到GPT-4的飛躍,主要原因是高質(zhì)量數(shù)據(jù)供應減少,OpenAI正通過合成數(shù)據(jù)和強化學習等方法應對挑戰(zhàn)。

每經(jīng)記者 蔡鼎    每經(jīng)實習記者 岳楚鵬    每經(jīng)編輯 蘭素英    

圖片來源:每日經(jīng)濟新聞 資料圖

近日,據(jù)The Information報道,OpenAI的下一代旗艦模型可能不會像前面幾代產(chǎn)品那樣帶來巨大的飛躍。新的模型或許無法像之前的模型那樣耀眼。

據(jù)報道,測試代號為Orion的新模型的員工發(fā)現(xiàn),盡管新模型性能超過了OpenAI現(xiàn)有的模型,但進步程度并不如從GPT-3到GPT-4的進步那么大。

換句話說,OpenAI改進的速度似乎正在放緩。根據(jù)一些內(nèi)部員工的說法,在諸如編程這類的任務上Orion并不比之前的模型更可靠。OpenAI 員工和研究人員表示,GPT 研發(fā)速度放緩的原因之一是高質(zhì)量文本和其他數(shù)據(jù)的供應量在不斷減少。

為了應對這種情況,OpenAI成立了一個基礎(chǔ)團隊,以研究如何在新訓練數(shù)據(jù)不斷減少的情況下繼續(xù)改進模型。據(jù)報道,這些新策略包括使用AI模型生成的合成數(shù)據(jù)對Orion進行訓練,以及在訓練后的過程中對模型進行更多改進。

目前,OpenAI并未回應相關(guān)消息的評論請求。不過上個月OpenAI曾表示,“我們今年沒有發(fā)布代號為Orion的模型的計劃。”

OpenAI下一代模型被曝質(zhì)量提升不大

使用ChatGPT的用戶數(shù)量正在飆升。不過,ChatGPT的底層模型的改進速度似乎正在放緩。

OpenAI即將推出的旗艦模型Orion所面臨的挑戰(zhàn)顯示了OpenAI所面臨的困難。今年5月,OpenAI首席執(zhí)行官奧特曼告訴員工,他預計正在訓練的Orion可能會比一年前發(fā)布的上一款模型好得多。

據(jù)The Information近日援引知情人士透露,奧特曼表示,盡管OpenAI只完成了Orion訓練過程的20%,但就智能程度以及完成任務和回答問題的能力而言,它已經(jīng)與GPT-4相當。

然而,據(jù)一些使用或測試過Orion的OpenAI員工表示,雖然Orion的性能超過了之前的模型,但與OpenAI發(fā)布的最后兩款模型GPT-3和GPT-4之間的飛躍相比,質(zhì)量的提升要小得多。

OpenAI的一些研究人員認為,在處理某些任務方面,Orion并不比之前的模型更可靠。據(jù)The Information援引OpenAI的一名員工稱,Orion在語言任務上表現(xiàn)更好,但在編碼等任務上可能不會勝過之前的模型。其中一位員工表示,與OpenAI最近發(fā)布的其他模型相比,Orion在數(shù)據(jù)中心運行的成本可能更高。

OpenAI研究員Noam Brown上個月在TED AI會議上表示,開發(fā)更先進的模型在財務上可能不可行。

“畢竟,我們真的要訓練耗資數(shù)千億美元或數(shù)萬億美元的模型嗎?”Brown說。“在某個時候,擴展范式(Scaling paradigm)就會崩潰。”

高質(zhì)量數(shù)據(jù)不足導致性能減速

Scaling laws是AI領(lǐng)域的一個核心假設:只要有更多的數(shù)據(jù)可供學習,以及額外的計算能力來促進訓練過程,大語言模型(LLM)就會繼續(xù)以相同的速度改進。

扎克伯格、奧特曼等人工智能開發(fā)商的首席執(zhí)行官也公開表示,他們尚未觸及傳統(tǒng)Scaling law的極限。

這就是為什么包括OpenAI在內(nèi)的公司仍花費數(shù)十億美元來建造昂貴的數(shù)據(jù)中心,以盡可能地從預訓練模型中獲取性能提升。

雖然理論上目前的模型并沒有觸及Scaling law的極限,但是可供使用的數(shù)據(jù)來源卻快要干涸了。

OpenAI的員工和研究人員表示,GPT模型減速的一個原因是高質(zhì)量文本和其他數(shù)據(jù)的供應不足。大語言模型需要在預訓練期間處理這些數(shù)據(jù),以理解世界和不同概念之間的關(guān)系,從而解決撰寫文章或解決編程錯誤等問題。

據(jù)The Information援引知情人士表示,過去幾年里,大語言模型在預訓練過程中使用了來自網(wǎng)站、書籍和其他來源的公開文本和其他數(shù)據(jù),但模型開發(fā)人員基本上已經(jīng)把這類數(shù)據(jù)資源榨干了。

圖片來源:視覺中國-VCG41N1309760279

OpenAI的應對之策:合成數(shù)據(jù)、強化學習

為了應對這種情況,OpenAI成立了一個基礎(chǔ)團隊,以研究如何在新訓練數(shù)據(jù)不斷減少的情況下繼續(xù)改進模型。該團隊由之前負責預訓練的Nick Ryder領(lǐng)導。OpenAI表示,這個團隊將研究如何應對訓練數(shù)據(jù)的匱乏,以及Scaling law還能適用多長時間。

據(jù)OpenAI的一名員工稱,Orion的訓練數(shù)據(jù)里有一部分是AI生成的合成數(shù)據(jù)。這些數(shù)據(jù)由GPT-4和最近發(fā)布的推理模型o1生成。然而,該員工表示,這種合成數(shù)據(jù)導致了一個新問題,即Orion最終可能會在某些方面與那些舊模型相似。

軟件公司Databricks的聯(lián)合創(chuàng)始人兼董事長Ion Stoica表示,這種合成數(shù)據(jù)可能并不能幫助AI進步。

Stoica說道:“對于常識性問題,你可以說現(xiàn)在我們看到的是大型語言模型性能都處于一個停滯狀態(tài)。我們需要更多的事實數(shù)據(jù),合成數(shù)據(jù)幫助不大。”

除此之外,OpenAI的研究者們在模型訓練后階段進行了額外的改進。比如,OpenAI采用了強化學習方法,通過讓模型從大量有正解的任務中學習(比如數(shù)學或編程問題),以此來改進它們處理特定任務的方式。

同時,OpenAI還會請人工評估員對預訓練的模型在特定的編程或問題解決任務上進行測試,并對答案進行評分。這有助于研究者調(diào)整模型,以更好地應對諸如寫作或編程等特定類型的請求。這一方法,即帶人類反饋的強化學習,也有助于改進之前的AI模型。

o1就是OpenAI使用這種改進手段得到的成果,o1模型在給出答案前,會花更多時間來“思考”大語言模型在訓練過程中處理的數(shù)據(jù)。這意味著,即使不對底層模型進行修改,只要在回答用戶問題時提供額外的計算資源,o1模型的回應質(zhì)量就能持續(xù)提升。據(jù)知情人士透露,如果OpenAI能夠持續(xù)改進底層模型的質(zhì)量,哪怕速度較慢,也能顯著提升推理效果。

“這為我們提供了一個全新的擴展維度,”Brown在TED AI大會上表示。研究人員可以通過將每次查詢的成本從一分錢提升到十分錢來提高模型的響應質(zhì)量。“

奧特曼同樣強調(diào)了OpenAI推理模型的重要性,這些模型可以與LLMs結(jié)合。

奧特曼在10月份一個面向應用開發(fā)者的活動中表示:“我希望推理功能能解鎖我們多年來期待實現(xiàn)的許多功能——例如,讓這類模型有能力貢獻新的科學知識,幫助編寫更復雜的代碼。”

但兩位知情員工表示,o1模型目前的價格比非推理模型高出六倍,因此它沒有廣泛的客戶群。

與此同時,o1模型的安全性也被很多人詬病,《自然》雜志就曾表示,在評估過程中,他們發(fā)現(xiàn)o1有時會遺漏關(guān)鍵安全信息,例如未強調(diào)爆炸危險或建議不適當?shù)幕瘜W品控制方法。

值得一提的是,OpenAI安全系統(tǒng)團隊負責人翁荔(Lilian Weng)近日也宣布將離開已經(jīng)工作了近7年的OpenAI。

如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權(quán),嚴禁轉(zhuǎn)載或鏡像,違者必究。

讀者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。

Ai 數(shù)據(jù) OpenAI 大模型

歡迎關(guān)注每日經(jīng)濟新聞APP

每經(jīng)經(jīng)濟新聞官方APP

0

0

免费va国产高清不卡大片,笑看风云电视剧,亚洲黄色性爱在线观看,成人 在线 免费