每日經(jīng)濟新聞

要聞

每經(jīng)網(wǎng)首頁 > 要聞 > 正文

OpenAI，大動作！

每日經(jīng)濟新聞 2025-04-17 07:05:21

2025年4月17日凌晨1點，OpenAI發(fā)布最新模型GPT-4.1，及GPT 4.1-Mini和GPT 4.1-Nano兩款模型。GPT-4.1在多模態(tài)處理、代碼能力、指令遵循、成本方面實現(xiàn)大幅度提升，支持100萬token上下文，對金融分析、教育等領(lǐng)域幫助巨大。目前，微軟Azure OpenAI已上線該模型。GPT-4.1系列價格更具競爭力，OpenAI正努力在生成式人工智能領(lǐng)域保持領(lǐng)先地位。

每經(jīng)編輯畢陸名

今天（17日）凌晨1點，OpenAI進行了技術(shù)直播發(fā)布了最新模型——GPT-4.1。

圖片來源：視頻截圖

除了GPT-4.1之外，還有GPT 4.1-Mini和GPT 4.1-Nano兩款模型，在多模態(tài)處理、代碼能力、指令遵循、成本方面實現(xiàn)大幅度提升。特別是支持100萬token上下文，這對于金融分析、小說寫作、教育等領(lǐng)域幫助巨大。

圖片來源：OpenAI官網(wǎng)截圖

由于GPT-4.1的發(fā)布，OpenAI宣布將會淘汰剛發(fā)布不久的GPT-4.5，其能力可見一斑。

目前，如果想體驗GPT-4.1而無法通過API身份驗證的小伙伴，微軟已經(jīng)在Azure OpenAI上線了該模型，可以使用了。

GPT-4.1有什么亮點？

GPT-4.1最大亮點之一就是支持100萬tokens上下文，這也是OpenAI首次發(fā)布長窗口模型。

與前代模型相比，GPT-4.1、GPT-4.1 Mini和GPT-4.1 Nano能夠處理多達100萬tokens的上下文，是GPT-4o的8倍。

OpenAI在Long Context Evals上對長文本進行了測試，測試結(jié)果顯示，GPT-4.1系列的三個模型均能夠在語料庫的任何深度找到目標文本，無論是開頭、中間還是結(jié)尾，甚至在長達100萬tokens的上下文中，模型依然能夠準確地定位目標文本。

OpenAI還在Multi-Round Coreference進行了測試，通過創(chuàng)建合成對話來測試模型在長上下文中的理解和推理能力。在這些對話中，用戶和助手交替進行對話，用戶可能會要求模型生成一首關(guān)于某個主題的詩，接著要求生成另一首關(guān)于不同主題的詩，然后可能要求生成一個關(guān)于第三個主題的短故事。模型需要在這些復(fù)雜的對話中找到特定的內(nèi)容，例如“第二篇關(guān)于某個主題的短故事”。

測試結(jié)果顯示，GPT-4.1在處理長達128K tokens的數(shù)據(jù)時顯著優(yōu)于GPT-4o，并且在長達100萬tokens的上下文中依然能夠保持較高的性能。

在編碼能力測試中，SWEBench評估將模型置于Python代碼庫環(huán)境，讓其探索代碼庫、編寫代碼和測試用例。結(jié)果顯示，GPT-4.1的準確率達到55%，而GPT-4o僅為33%。

在多語言編碼能力測試方面，Ader polyglot基準測試涵蓋多種編程語言和不同格式要求。GPT-4.1在差異性能上較GPT-4o提升一倍，在處理多語言編程任務(wù)、代碼優(yōu)化和版本管理時更高效。

在指令遵循能力測試中，OpenAI構(gòu)建內(nèi)部評估體系，模擬API開發(fā)者使用場景，測試模型對復(fù)雜指令的遵循能力。每個樣本包含分屬不同類別的復(fù)雜指令，并分難度等級。在困難子集評估中，GPT-4.1遠超GPT-4o。

在多模態(tài)處理測試的視頻MME基準測試中，GPT 4.1對30-60分鐘無字幕視頻進行理解并回答多項選擇題，取得72%的成績，達到當前最佳水平，在視頻內(nèi)容理解上實現(xiàn)重大突破。

價格方面，GPT-4.1系列在性能提升的同時，價格更具競爭力。GPT-4.1相比GPT-4o價格降低26%，而GPT-4.1 Nano作為最小、最快且最便宜的模型，每百萬token的成本僅為12美分。

自2022年底推出火爆的ChatGPT聊天機器人以來，OpenAI一直在迅速升級其模型，使其遠遠超越文本，進入圖像、語音和視頻領(lǐng)域。該公司正努力在生成式人工智能領(lǐng)域保持領(lǐng)先地位，在這一領(lǐng)域，它面臨著來自谷歌、Anthropic和馬斯克的xAI等競爭對手的激烈競爭。

OpenAI寫道：“我們的推理模型第一次可以獨立使用所有ChatGPT工具——網(wǎng)頁瀏覽、Python、圖像理解和圖像生成。”“這有助于他們更有效地解決復(fù)雜的、多步驟的問題，并邁出獨立行動的真正步驟。”

該公司在上個月的一輪融資中估值為3000億美元。該公司表示，o3和o4-mini是其首批能夠“用圖像思考”的人工智能模型。根據(jù)OpenAI的說法，這意味著“它們不僅可以看到圖像，還可以將視覺信息直接整合到推理鏈中。”

每日經(jīng)濟新聞綜合OpenAI

封面圖片來源：每日經(jīng)濟新聞

如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權(quán)，嚴禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

上一篇文章

新西蘭第一季度CPI同比升2.5%

返回每經(jīng)網(wǎng)首頁

下一篇文章

重磅！277億元！萬億央企旗下A股公司重組

相關(guān)文章

熱文精選

點擊排行

歡迎關(guān)注每日經(jīng)濟新聞APP

每經(jīng)經(jīng)濟新聞官方APP

關(guān)注我們
辟謠專區(qū)

加入我們
招聘專頁

Copyright ? 2025 每日經(jīng)濟新聞報社版權(quán)所有，未經(jīng)許可不得轉(zhuǎn)載使用，違者必究。

廣告熱線? 北京: 010-57613265，?上海: 021-61283008，?廣州: 020-84201861，?深圳: 0755-83520159，?成都: 028-86512112

網(wǎng)絡(luò)社會征信網(wǎng)

兒童色情信息舉報專區(qū)

成都市互聯(lián)網(wǎng)不良與違法信息舉報中心

四川省互聯(lián)網(wǎng)舉報中心

中國互聯(lián)網(wǎng)舉報中心

每日經(jīng)濟新聞互聯(lián)網(wǎng)不良與違法信息舉報中心

互聯(lián)網(wǎng)新聞信息服務(wù)許可證：51120190017 網(wǎng)站備案號：蜀ICP備19004508號-3 川公網(wǎng)安備 51019002002026號

新聞職業(yè)道德監(jiān)督熱線：400 889 0008 郵箱：zbb@nbd.com.cn

免费va国产高清不卡大片,笑看风云电视剧,亚洲黄色性爱在线观看,成人在线免费