要聞

五大維度評(píng)測(cè)OpenAI全新o1模型：代碼編寫、游戲制作等能力“驚艷”，事實(shí)性知識(shí)卻“翻了車”

每日經(jīng)濟(jì)新聞 2024-09-13 20:33:39

◎ 解題能力超越人類博士？《每日經(jīng)濟(jì)新聞》記者從五大維度帶來(lái)了對(duì)OpenAI最新發(fā)布的模型o1-preview的一手評(píng)測(cè)結(jié)果。

每經(jīng)記者鄭雨航每經(jīng)實(shí)習(xí)記者岳楚鵬每經(jīng)編輯蘭素英

傳說(shuō)中的“草莓”模型今天在沒(méi)有任何預(yù)告下忽然上線了！

OpenAI最新發(fā)布的模型名為o1，是系列推理模型的首批版本，現(xiàn)階段推出的是o1-preview（預(yù)覽版）和o1-mini（迷你版）。

目前，o1-preview和o1-mini已經(jīng)面向ChatGPT Plus和Team訂閱用戶開放，而Enterprise和Edu用戶將于下周初獲得訪問(wèn)權(quán)限。OpenAI表示，它計(jì)劃向ChatGPT的所有免費(fèi)用戶提供o1-mini訪問(wèn)權(quán)限，但尚未確定發(fā)布日期。

據(jù)OpenAI介紹，在解決問(wèn)題的能力方面，o1模型比以往任何模型都更接近人類思維，并且能夠“推理”數(shù)學(xué)、編碼和科學(xué)任務(wù)。

為了驗(yàn)證新模型的能力是否正如OpenAI所宣稱的那么強(qiáng)大，《每日經(jīng)濟(jì)新聞》記者從經(jīng)典“草莓測(cè)試”、代碼編寫、小游戲制作、數(shù)學(xué)與經(jīng)濟(jì)學(xué)，以及事實(shí)性知識(shí)這五大維度對(duì)o1-preview模型進(jìn)行了測(cè)試。

結(jié)果顯示，o1-preview表現(xiàn)出了超越OpenAI之前發(fā)布的大模型的編程和數(shù)學(xué)推理能力。例如，o1-preview能夠編寫出流暢運(yùn)行的代碼，并且在復(fù)雜環(huán)境中依然能夠自行推理出解決方案。而且，記者在測(cè)試過(guò)程中也感覺(jué)到，o1-preview在人性化方面也有很大的提升，表現(xiàn)出了真人般的思考。不過(guò)，新模型也并非毫無(wú)缺點(diǎn)，在事實(shí)性知識(shí)測(cè)試就“翻車”了。

傳說(shuō)中的“草莓”來(lái)了

當(dāng)?shù)貢r(shí)間9月12日，OpenAI發(fā)布了一款名為o1的新模型，這是其計(jì)劃中一系列“推理”模型中的第一個(gè)版本，也是此前業(yè)界盛傳已久的“草莓”模型。

圖片來(lái)源：X平臺(tái)

對(duì)于OpenAI來(lái)說(shuō)，o1代表著它朝著類人AI的目標(biāo)又邁出了一步。OpenAI認(rèn)為，o1代表著一種全新的能力，這一能力被認(rèn)為如此重要，以至于公司決定從當(dāng)前的GPT-4模型重新開始，完全放棄了“GPT”品牌，從1開始命名。

OpenAI表示，將從當(dāng)前的GPT-4模型重新開始，“將計(jì)數(shù)器重置為 1”，甚至放棄了迄今為止定義了聊天機(jī)器人乃至整個(gè)生成式AI熱潮的“GPT”品牌。o1建立了一個(gè)能夠通過(guò)一系列離散步驟，謹(jǐn)慎而合乎邏輯地解決問(wèn)題的系統(tǒng)，每個(gè)步驟都建立在上一個(gè)步驟的基礎(chǔ)上，類似于人類的推理方式。

OpenAI首席科學(xué)家Jakub Pachocki表示，之前的模型在收到用戶問(wèn)詢時(shí)會(huì)立即開始回答。“而這個(gè)模型（指的是o1）會(huì)慢慢來(lái)。它思考問(wèn)題，并嘗試分解問(wèn)題，尋找角度，努力提供最佳答案。”這就像大多數(shù)人在幼年時(shí)被父母所要求的那樣，先想好再說(shuō)話。

OpenAI表示，o1在競(jìng)賽編程問(wèn)題（Codeforces）中排名第89個(gè)百分點(diǎn)，在美國(guó)數(shù)學(xué)奧林匹克競(jìng)賽（AIME）預(yù)選賽中位列美國(guó)前500名學(xué)生之列，并且在物理、生物和化學(xué)問(wèn)題的基準(zhǔn)測(cè)試（GPQA）中超過(guò)了人類博士水平的準(zhǔn)確度。

在OpenAI發(fā)布的研究和博客文章中，o1看起來(lái)“推理”能力十分強(qiáng)大，不僅可解決高級(jí)數(shù)學(xué)和編碼問(wèn)題，還能解密復(fù)雜的密碼，以及解答來(lái)自專家學(xué)者們關(guān)于遺傳學(xué)、經(jīng)濟(jì)學(xué)和量子物理學(xué)的復(fù)雜問(wèn)題。大量圖表顯示，在內(nèi)部評(píng)估中，o1在編碼、數(shù)學(xué)和各個(gè)科學(xué)領(lǐng)域的問(wèn)題上已經(jīng)超越了公司最先進(jìn)的語(yǔ)言模型GPT-4o，甚至可能超越了人類。

圖片來(lái)源：OpenAI官網(wǎng)

五大維度實(shí)測(cè)：代碼編寫、游戲制作等能力“驚艷”，但“栽”在了事實(shí)性知識(shí)測(cè)試

為了深入了解o1模型的強(qiáng)大能力，《每日經(jīng)濟(jì)新聞》記者從經(jīng)典草莓測(cè)試、代碼編寫、小游戲制作、數(shù)學(xué)與經(jīng)濟(jì)學(xué)，以及事實(shí)性知識(shí)這五大維度對(duì)o1-preview模型進(jìn)行了測(cè)試。

1）草莓測(cè)試

首先，記者用之前幾乎所有大模型都“翻車”的一道簡(jiǎn)單題目進(jìn)行了測(cè)試，即“單詞strawberry里面到底有幾個(gè)r”。從生成的結(jié)果看，o1-preview還是帶來(lái)了一點(diǎn)小驚喜的。

2）代碼編寫

記者首先向o1-preview詢問(wèn)了一個(gè)在線編程平臺(tái)leetcode里最有名的簡(jiǎn)單算法題：Two Sum（兩數(shù)之和）問(wèn)題。o1給出了很詳盡的推理過(guò)程和答案。

隨后記者故意要求優(yōu)化答案，o1在思考9秒后意識(shí)到自己提供的已經(jīng)是最優(yōu)解法了，并就此進(jìn)行了說(shuō)明，另外還很“貼心”地提供了一個(gè)次優(yōu)解。而在之前記者對(duì)其他模型的測(cè)試中，這些模型只會(huì)道歉然后將答案更改為次優(yōu)解。

3）小游戲制作

在o1模型的演示中，OpenAI演示過(guò)“用一句話編寫小游戲”的功能。測(cè)試過(guò)程中，記者讓o1-preview幫忙介紹好用的代碼工具，并協(xié)助編寫一個(gè)乒乓小游戲。

o1-preview僅用了19秒就給出了一份能夠流暢運(yùn)行的代碼，并且附上了學(xué)習(xí)指南和鼓勵(lì)的話語(yǔ)，非常地人性化。

為避免o1-preview作弊，使用的是記憶能力，而不是使用推理能力進(jìn)行回答，記者還請(qǐng)求o1-preview更換了一個(gè)代碼運(yùn)行環(huán)境：jupyter note。這一運(yùn)行環(huán)境是針對(duì)數(shù)據(jù)分析進(jìn)行特化的python環(huán)境，開發(fā)人員基本不會(huì)使用此環(huán)境開發(fā)小游戲。

經(jīng)過(guò)思考后，o1依然給出了一個(gè)可以運(yùn)行的代碼。不過(guò)，相較于之前的代碼，這份答案有著不少的bug，但這也從側(cè)面說(shuō)明這確實(shí)是思考出來(lái)的答案，而不是訓(xùn)練過(guò)程中加入的標(biāo)準(zhǔn)答案。

為進(jìn)一步驗(yàn)證o1-preview的創(chuàng)新推理能力，記者隨后又要求模型在這個(gè)小游戲的基礎(chǔ)上開發(fā)一個(gè)更復(fù)雜有趣的小游戲。

這下，o1的表現(xiàn)真的有點(diǎn)驚喜。根據(jù)乒乓游戲的碰撞機(jī)制，該模型自行迭代出了一個(gè)向上登高的跳躍游戲。一般其他大模型需要用戶把需求描述清楚才會(huì)輸出一個(gè)比較好的答案，但記者在這次測(cè)試中沒(méi)有進(jìn)行任何的額外提示，o1就輸出了一個(gè)能流暢運(yùn)行，并且在記者眼中看來(lái)也足夠有趣的小游戲。

4）科學(xué)類測(cè)試

在科學(xué)類測(cè)試方面，記者重點(diǎn)測(cè)試了o1-preview在數(shù)學(xué)和經(jīng)濟(jì)學(xué)上的表現(xiàn)。

首先，記者拋出的是一個(gè)數(shù)學(xué)推理問(wèn)題，向o1-preview詢問(wèn)解決歐拉方程有限時(shí)間爆破的可能方法（這是著名華裔數(shù)學(xué)家、菲爾茲獎(jiǎng)得主陶哲軒教授本周才發(fā)表的討論文章）。

o1雖然沒(méi)有給出明確解法，但卻提供了一個(gè)解題思路，這一思路和陶哲軒教授文章部分吻合（雖然很少）。

經(jīng)濟(jì)學(xué)方向上，記者向o1-preview詢問(wèn)了一個(gè)復(fù)雜的經(jīng)濟(jì)系統(tǒng)問(wèn)題。從給出的反饋看，基本沒(méi)有什么太大的問(wèn)題，整體邏輯清晰，思考維度也是多樣化的，給出的數(shù)學(xué)公式雖然有一點(diǎn)小差錯(cuò)但是無(wú)傷大體。

5）事實(shí)性知識(shí)與語(yǔ)言理解

在這一環(huán)節(jié)，記者向o1-preview詢問(wèn)了明朝第一任皇帝的趣事，但o1就將趣事理解成了歷史上實(shí)際發(fā)生過(guò)的事情，將朱元璋的歷史故事整個(gè)敘述了出來(lái)。

同時(shí)，記者也將這一問(wèn)題丟給了GPT-4o模型，作為對(duì)比，GPT-4o能很好地理解記者的問(wèn)題，并講了兩個(gè)流傳很廣的民間小故事。

總體來(lái)看，OpenAI宣稱o1模型能接近人類水平在某些方面上看起來(lái)并不是虛話。

最讓記者驚喜的是，OpenAI將模型思考的過(guò)程用文字展示給了用戶，文字思考過(guò)程中，大模型大量使用了“我正在”“我認(rèn)為”“我打算”等話語(yǔ)，感覺(jué)更加擬人化，就像一個(gè)真人在用戶面前闡述自己的思考邏輯一般。

但這也并不意味著o1模型就是完美的。OpenAI也承認(rèn)，在設(shè)計(jì)、寫作、編輯文字等方面上，o1遠(yuǎn)不如GPT-4o。o1也沒(méi)有瀏覽網(wǎng)頁(yè)或處理文件和圖像的能力。

而最讓記者感到頭疼的是，即使是一個(gè)很簡(jiǎn)單的請(qǐng)求，比如說(shuō)將輸出結(jié)果轉(zhuǎn)換為中文，o1都會(huì)消耗十幾秒鐘的時(shí)間來(lái)思考，而GPT4o就會(huì)很快處理好這一請(qǐng)求。

就算在OpenAI的優(yōu)勢(shì)領(lǐng)域中，o1模型也會(huì)突然出現(xiàn)性能下降，模型輸出懶惰的情況。已離職的OpenAI創(chuàng)始人Karpathy就吐槽道：“它一直拒絕為我解決黎曼假說(shuō)。模型懶惰仍然是一個(gè)主要問(wèn)題。”

OpenAI表示，公司會(huì)在之后的更新中解決這些問(wèn)題，畢竟現(xiàn)在這只是推理模型的早期預(yù)覽。

如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

Ai OpenAI 大模型

上一篇文章

烽火電子：9月12日召開董事會(huì)會(huì)議

返回每經(jīng)網(wǎng)首頁(yè)

下一篇文章

年內(nèi)第四輪加薪！全員普調(diào)，各業(yè)務(wù)陸續(xù)實(shí)現(xiàn)20薪：京東想找回“狼性”

相關(guān)文章

熱文精選

點(diǎn)擊排行

歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

五大維度評(píng)測(cè)OpenAI全新o1模型：代碼編寫、游戲制作等能力“驚艷”，事實(shí)性知識(shí)卻“翻了車”

傳說(shuō)中的“草莓”來(lái)了

五大維度實(shí)測(cè)：代碼編寫、游戲制作等能力“驚艷”，但“栽”在了事實(shí)性知識(shí)測(cè)試

五大維度評(píng)測(cè)OpenAI全新o1模型：代碼編寫、游戲制作等能力“驚艷”，事實(shí)性知識(shí)卻“翻了車”

五大維度實(shí)測(cè)：代碼編寫、游戲制作等能力“驚艷”，但“栽”在了事實(shí)性知識(shí)測(cè)試