每日經(jīng)濟新聞

要聞

每經(jīng)網(wǎng)首頁 > 要聞 > 正文

四大維度深度體驗多模態(tài)性能，GPT-4o為何被稱作“最強大模型”？

每日經(jīng)濟新聞 2024-05-18 16:39:37

每經(jīng)記者文巧每經(jīng)編輯蘭素英

Safneuhpuj1716027799156.thumb_head

圖片來源：每經(jīng)制圖

去年3月，GPT-4震撼發(fā)布，距今已逾一年。盡管科技巨頭如谷歌、Meta，以及硅谷新貴如Mistral AI、Anthropic在那之后都爭相發(fā)布了競品大模型，但似乎至今還未有第二款大模型達到與GPT-4一般橫掃科技圈的力量——直到GPT-4o的誕生。

當?shù)貢r間5月13日，OpenAI在萬眾期待中推出了名為GPT-4o的新一代旗艦AI模型。當日，OpenAI首席執(zhí)行官阿爾特曼發(fā)推文表示，新的GPT-4o是OpenAI“有史以來最好的模型”。

據(jù)悉，GPT-4o支持文字、圖像、語音和視頻輸入和輸出，OpenAI承諾未來將免費讓普通用戶使用，同時將開放API給GPT開發(fā)者，價格直接便宜50%。目前，該模型僅開放了文本和圖像功能。

本周，《每日經(jīng)濟新聞》記者從圖像和文本兩大層面深度體驗了GPT-4o的效果，著重識圖能力的測試。綜合來看，GPT-4o在反應速度上有極大的提升，識圖方面冠絕群雄，不僅能夠準確識別圖片，還能以類人的思維理解圖像內(nèi)容。而在長文本總結(jié)方面，與當前模型的差距并不突出。

GPT-4o到底是如何“煉”成的？當?shù)貢r間5月15日，OpenAI聯(lián)合創(chuàng)始人之一John Schulman在接受科技播客主持人Dwarkesh Patel采訪時透露，后訓練是提高模型性能的關(guān)鍵因素。

GPT-4o的識圖能力有多牛？四大維度深度體驗

基于圖片類型，記者將識圖功能的測評分為4大維度，分別為普通圖像、特定專業(yè)領(lǐng)域的圖像、數(shù)據(jù)圖像和手寫圖像。

一、普通圖像識別

（1）內(nèi)容較為單一的圖像

記者首先選取了一張波士頓動力機器人跨越障礙物的圖像，內(nèi)容較為簡單，圖上無文字，隨后要求大模型仔細識圖并描述內(nèi)容。GPT-4o非常出色地完成了任務，細節(jié)描述無可匹敵，準確無誤地識別了機器人的運動狀態(tài)、地面障礙等豐富細節(jié)。

圖片來源：GPT-4o

（2）內(nèi)容較為復雜的漫畫

接著，記者選取了由多個圖像組成、內(nèi)容較為復雜的漫畫。GPT-4o可以完整地總結(jié)出每一格漫畫的內(nèi)容，并以準確的順序進行講述。更令人吃驚的是，GPT-4o完全以類人的思維解構(gòu)了漫畫的邏輯，它能夠理解這是一種“擬人和夸張的手法”，并準確理解了漫畫的幽默感。

圖片來源：GPT-4o

二、特定專業(yè)領(lǐng)域的圖像

（1）醫(yī)學領(lǐng)域

記者準備了一張mRNA疫苗工作原理圖，圖像并未直接說明這是一張疫苗工作原理圖，但圖上寫有相應文字，例如“刺突蛋白”、“蛋白質(zhì)翻譯”和“脂質(zhì)納米顆粒”等術(shù)語。

GPT-4o的表現(xiàn)驚艷，不僅準確識別了該圖的主旨內(nèi)容，并依據(jù)圖示上的過程用通俗的語言解釋了mRNA疫苗的工作原理。

圖片來源：GPT-4o

（2）房地產(chǎn)領(lǐng)域

接著，記者選取了一張建筑面積134平方米的戶型圖，讓大模型識圖并總結(jié)戶型優(yōu)劣勢。GPT-4o呈現(xiàn)了總體令人較為滿意的結(jié)果，該模型不僅能識別戶型基本情況，分辨出“半贈送”的建筑面，也能夠清楚地總結(jié)戶型的優(yōu)劣勢，但在數(shù)據(jù)準確性上有待提高。

圖片來源：GPT-4o

三、數(shù)據(jù)圖像的分析和轉(zhuǎn)換

在此維度下，記者選取了一張折柱混合數(shù)據(jù)圖。GPT-4o能夠準確地識別數(shù)據(jù)圖上的信息，并按要求以圖表的形式重新呈現(xiàn)，準確率高達100%。

圖片來源：GPT-4o

四、手寫指令和邏輯推理

最后，記者上了點難度，用手寫的邏輯推理題來測試了GPT-4o的識圖和邏輯推理能力。GPT-4o的回答堪稱完美，不僅準確識別了手寫體文字并遵照指示，且答題邏輯完全合理，也最終給出了正確答案。

圖片來源：GPT-4o

除了識圖功能之外，記者也從文本層面對GPT-4o的長文本總結(jié)功能進行了測評。記者選取了一篇近萬字的調(diào)查稿件，讓其總結(jié)要點。GPT-4o不負眾望地完成了任務。

圖片來源：GPT-4o

GPT-4o是如何“煉”成的？后訓練功不可沒

從前述體驗看，GPT-4o的反應速度和多模態(tài)能力令人印象深刻。OpenAI首席執(zhí)行官阿爾特曼直言，新的GPT-4o是OpenAI“有史以來最好的模型”。

那么，GPT-4o的多模態(tài)能力是如何“煉”成的呢？這背后的秘密或許可以從OpenAI聯(lián)合創(chuàng)始人John Schulman當?shù)貢r間5月15日與科技播客主持人Dwarkesh Patel的對話中一窺究竟。

John Schulman在采訪中提到，后訓練（Post-Training）是提高模型性能的有效方法，通過額外的訓練和微調(diào)可以顯著提高模型的能力。

在這里需要區(qū)分兩個關(guān)鍵的概念，在大模型訓練中通常會提到“預訓練”、“后訓練”等術(shù)語。預訓練常在大規(guī)模的數(shù)據(jù)集上進行（通常是讓模仿互聯(lián)網(wǎng)上的內(nèi)容），目標是通過在較大的任務上訓練模型，使得模型學習到通用的特征。

而后訓練指的是專注針對特定行為優(yōu)化模型，在預訓練模型的基礎(chǔ)上，使用額外的大規(guī)模未標注語料庫繼續(xù)訓練模型參數(shù)，這個過程可以進一步豐富模型對語言的理解和生成能力，使其獲得更廣泛的知識。

根據(jù)John Schulman的說法，后訓練是GPT-4模型不斷升級的關(guān)鍵因素。據(jù)悉，當前 GPT-4 的 Elo分數(shù)（編者注：一種大模型基準評級標準）比最初發(fā)布的版本高出了大約 100 分，而這種改進大部分都是由后訓練帶來的。

他同時暗示，在未來用于訓練的算力中，OpenAI可能將偏向后訓練。他說道：“模型生成的輸出質(zhì)量比網(wǎng)上的大多數(shù)內(nèi)容都要高。因此，讓模型自己思考似乎更有道理，而不僅僅是訓練來模仿網(wǎng)絡上的內(nèi)容。所以，我認為從第一性原理上來說，這是有說服力的。我們通過后訓練取得了很多進步。我希望我們會繼續(xù)推動這種方法，并且可能會增加投入到后訓練中的計算力。”

針對GPT-4o強大的多模態(tài)能力，英偉達高級研究科學家Jim Fan發(fā)表長文表示，從技術(shù)角度來看，這需要對標記化和架構(gòu)進行一些新的研究，但總體上是一個數(shù)據(jù)和系統(tǒng)優(yōu)化問題。

在Jim Fan看來，GPT-4o很可能是GPT-5的一個早期訓練點，但訓練尚未完成。從商業(yè)角度上，他認為，“GPT-4o的定位透露出OpenAI某種不安全感，在谷歌開發(fā)者大會之前（發(fā)布GPT-4o），（意味著）OpenAI寧愿超越我們對GPT-4.5的心理預期，也不愿因為達不到對GPT-5的極高期望而令人失望。這是一個聰明的舉措，可以爭取更多時間。”目前，業(yè)界廣傳GPT-5將在年底發(fā)布。

Jim Fan的觀點與一些業(yè)內(nèi)分析不謀而合。分析認為，OpenAI選擇此時發(fā)布GPT-4o，是為了在競爭對手尤其是谷歌不斷發(fā)起挑戰(zhàn)的情況下，繼續(xù)保持領(lǐng)先地位。

如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權(quán)，嚴禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

GPT 模型大模型一周熱點

上一篇文章

農(nóng)業(yè)農(nóng)村部部長唐仁健，被查！

返回每經(jīng)網(wǎng)首頁

下一篇文章

美媒：北約或?qū)⑾驗蹩颂m派遣軍隊訓練人員

相關(guān)文章

熱文精選

點擊排行

歡迎關(guān)注每日經(jīng)濟新聞APP

每經(jīng)經(jīng)濟新聞官方APP

關(guān)注我們
辟謠專區(qū)

加入我們
招聘專頁

Copyright ? 2025 每日經(jīng)濟新聞報社版權(quán)所有，未經(jīng)許可不得轉(zhuǎn)載使用，違者必究。

廣告熱線? 北京: 010-57613265，?上海: 021-61283008，?廣州: 020-84201861，?深圳: 0755-83520159，?成都: 028-86512112

網(wǎng)絡社會征信網(wǎng)

兒童色情信息舉報專區(qū)

成都市互聯(lián)網(wǎng)不良與違法信息舉報中心

四川省互聯(lián)網(wǎng)舉報中心

中國互聯(lián)網(wǎng)舉報中心

每日經(jīng)濟新聞互聯(lián)網(wǎng)不良與違法信息舉報中心

互聯(lián)網(wǎng)新聞信息服務許可證：51120190017 網(wǎng)站備案號：蜀ICP備19004508號-3 川公網(wǎng)安備 51019002002026號

新聞職業(yè)道德監(jiān)督熱線：400 889 0008 郵箱：zbb@nbd.com.cn

免费va国产高清不卡大片,笑看风云电视剧,亚洲黄色性爱在线观看,成人在线免费