每日經(jīng)濟(jì)新聞

要聞

每經(jīng)網(wǎng)首頁 > 要聞 > 正文

最新！OpenAI上架推理模型o3-mini，首次向免費(fèi)用戶開放！AIME測試中，o3-mini最高準(zhǔn)確率達(dá)87.3%

每日經(jīng)濟(jì)新聞 2025-02-01 07:49:09

當(dāng)?shù)貢r間1月31日，OpenAI正式推出全新推理模型o3-mini，并首次向免費(fèi)用戶開放。測試顯示，在美國數(shù)學(xué)邀請賽（AIME 2024）中，o3-mini的準(zhǔn)確率隨推理努力提升，最高可達(dá)87.3%，速率也顯著優(yōu)于前代o1-mini。在編程競賽及通用知識評測中，o3-mini表現(xiàn)優(yōu)異，響應(yīng)速度比o1-mini快24%。

每經(jīng)編輯杜宇

當(dāng)?shù)貢r間1月31日，OpenAI正式推出了全新推理模型o3-mini，并首次向免費(fèi)用戶開放推理模型。這是OpenAI推理系列中最新、成本效益最高的模型，現(xiàn)在已經(jīng)在ChatGPT和API中上線。

圖片來源：OpenAI

輕量級推理大模型o3-mini最早于2024年12月的直播活動中亮相，一同亮相的還有“滿血版”的o3模型。OpenAI宣稱，o3具備更先進(jìn)、近似人類的推理能力，在解決編程、數(shù)學(xué)、科學(xué)等理工科問題方面均超越現(xiàn)役的o1模型。OpenAI曾表示，o3-mini會在2025年1月底先上架，o3則“會在不久之后推出”。

OpenAI介紹稱，o3-mini支持開發(fā)者調(diào)整“AI推理努力程度”的選項——分為低、中、高三個級別。這種靈活性使得o3-mini可以在面對難題時“更努力思考”，而需要效率時優(yōu)先考慮回應(yīng)速度。

在當(dāng)?shù)貢r間1月31日的新聞稿中，OpenAI披露，在2024年美國數(shù)學(xué)邀請賽（AIME 2024）的測試中，低推理努力的o3-mini準(zhǔn)確率（60%）與o1-mini差不多，但速率更快；而在中等努力下，o3-mini準(zhǔn)確率能夠提升到79.6%，與o1模型相當(dāng)。在最高努力水平時，o3-mini的準(zhǔn)確率則能進(jìn)一步提升至87.3%。

在博士級科學(xué)問題（GPQA Diamond）方面，三種努力程度模型的準(zhǔn)確率分別為70.6%、76.8%和79.7%。

FrontierMath前沿數(shù)學(xué)與Codeforces等編程競賽方面，o3-mini也顯示出明顯優(yōu)勢，甚至在某些評測中遠(yuǎn)超前代模型。

通用知識方面，在各種知識評測中，o3-mini的表現(xiàn)也超過了o1-mini，能夠為用戶提供更準(zhǔn)確的答案。

在智能水平與o1相當(dāng)?shù)那疤嵯?，o3-mini提供了更快的性能和更高的效率。除了上述提及的STEM評估之外，采用中等推理努力的情況下，o3-mini在數(shù)學(xué)和事實性評估中也展現(xiàn)出更出色的表現(xiàn)。在A/B測試中，o3-mini的響應(yīng)速度比o1-mini快24%，其平均響應(yīng)時間為7.7 秒，而o1-mini為10.16 秒。延遲方面，o3-mini的首個token平均比o1-mini快2500毫秒。

橫向?qū)Ρ龋珼eepSeek-R1模型在AIME 2024測試中的準(zhǔn)確率為79.8%，而在GPQA Diamond測試中的準(zhǔn)確率為71.5%。

有專家在社交媒體表示：受DeepSeek影響，OpenAl現(xiàn)在也顯示推理模型的思維過程了。

此外，對于付費(fèi)用戶，o3-mini將在模型選擇器中替代o1-mini。作為升級的一部分，每月花費(fèi)20美元左右的ChatGPT Plus和Team用戶，速率限制也從o1-mini的每天50條，提升到o3-mini的150條。每月支付200美元的ChatGPT Pro用戶，能無限制地訪問o3-mini。

每日經(jīng)濟(jì)新聞綜合OpenAI官網(wǎng)、公開資料

如需轉(zhuǎn)載請與《每日經(jīng)濟(jì)新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

MINI 模型 Ai

上一篇文章

CFTC：截至1月28日當(dāng)周投機(jī)者所持NYMEX WTI原油凈多頭頭寸下降59095手合約

返回每經(jīng)網(wǎng)首頁

下一篇文章

商務(wù)部回應(yīng)日本擬實施半導(dǎo)體等多項出口管制措施；美國確認(rèn)對墨加兩國商品征收25%關(guān)稅；英偉達(dá)、亞馬遜上線DeepSeek|每經(jīng)早參

相關(guān)文章

熱文精選

點(diǎn)擊排行

歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

每經(jīng)經(jīng)濟(jì)新聞官方APP

關(guān)注我們
辟謠專區(qū)

加入我們
招聘專頁

Copyright ? 2025 每日經(jīng)濟(jì)新聞報社版權(quán)所有，未經(jīng)許可不得轉(zhuǎn)載使用，違者必究。

廣告熱線? 北京: 010-57613265，?上海: 021-61283008，?廣州: 020-84201861，?深圳: 0755-83520159，?成都: 028-86512112

網(wǎng)絡(luò)社會征信網(wǎng)

兒童色情信息舉報專區(qū)

成都市互聯(lián)網(wǎng)不良與違法信息舉報中心

四川省互聯(lián)網(wǎng)舉報中心

中國互聯(lián)網(wǎng)舉報中心

每日經(jīng)濟(jì)新聞互聯(lián)網(wǎng)不良與違法信息舉報中心

互聯(lián)網(wǎng)新聞信息服務(wù)許可證：51120190017 網(wǎng)站備案號：蜀ICP備19004508號-3 川公網(wǎng)安備 51019002002026號

新聞職業(yè)道德監(jiān)督熱線：400 889 0008 郵箱：zbb@nbd.com.cn

免费va国产高清不卡大片,笑看风云电视剧,亚洲黄色性爱在线观看,成人在线免费