每日經濟新聞 2024-05-14 17:01:41
每經記者 蔡鼎 每經編輯 蘭素英 孫志成
美西時間5月13日(周一),OpenAI首席技術官Mira Murati在備受期待的直播演示中宣布,推出名為GPT-4o的新旗艦AI模型,這是其已經問世一年多的GPT-4模型的更新版本。同時,OpenAI還推出了臺式機版本的ChatGPT以及新的用戶界面(UI)。
GPT-4o模型基于來自互聯(lián)網的大量數據進行訓練,更擅長處理文本和音頻,并且支持50種語言。更值得一提的是,GPT-4o最快可以在232毫秒的時間內響應音頻輸入,幾乎達到了人類的響應水平。?
Murati稱新模型面向所有人,而不僅僅是付費用戶,為“我們的免費用戶帶來GPT-4級別的智能水平”。不過,GPT-4o的應用程序接口中尚未為所有客戶提供語音功能。鑒于濫用風險,OpenAI計劃在未來幾周內首先向“一小部分可信賴的合作伙伴”推出對GPT-4o新音頻功能的支持。
而ChatGPT-4o發(fā)布后,網友對其的評價也是褒貶不一。英偉達科學家Jim Fan評論稱,“從技術角度來看,總體來說是一個數據和系統(tǒng)優(yōu)化問題?!庇芯W友也稱,感覺到目前為止,OpenAI沒有那么開創(chuàng)性,不過也有網友認為,OpenAI進一步拉開了和蘋果的差距,現在該輪到蘋果的Siri“滿頭大汗”了。
GPT-4o有多“炸裂”?核心能力有三
GPT-4o中的“o”代表“omni”,意為“全能”。OpenAI官網介紹稱,GPT-4o向更自然的人機交互邁進了一步,因為它接受文本、音頻和圖像的任意組合作為輸入內容,并生成文本、音頻和圖像的任意組合輸出內容。
那GPT-4o到底有多強,有哪些核心能力呢?
圖片來源:OpenAI官網截圖
能力一:“實時”互動,表達富有情感,視覺功能更強
OpenAI表示,GPT-4o顯著提升了AI聊天機器人ChatGPT的使用體驗。雖然ChatGPT長期支持語音模式,可將ChatGPT的文本轉為語音,但GPT-4o在此基礎上進行了優(yōu)化,使用戶能夠像與助手互動一樣自然地使用ChatGPT。
例如,用戶現在可以在ChatGPT回答問題時中斷它。而且,新模型能夠提供“實時”響應,甚至能夠捕捉到用戶聲音中的情感,并以不同的情感風格生成語音,如同真人一般。此外,GPT-4o還增強了ChatGPT的視覺功能。通過照片或屏幕截圖,ChatGPT現在可以迅速回答相關問題,從“這段代碼是做什么用的”到“這個人穿的是什么品牌的襯衫”。
美國科技媒體Quartz報道稱,OpenAI新發(fā)布的ChatGPT-4o的技術讓人印象深刻。OpenAI的演示表明,機器人現在可以與人類進行實時對話,與真人水平幾乎沒有區(qū)別。如果最終版本像OpenAI官方的演示一樣,那么OpenAI似乎已經從某種程度上驗證AI將在多大程度上改變我們的世界。
能力二:多語言表現出色,響應速度幾乎與真人無異
GPT-4o的多語言功能得到了增強,在50種不同的語言中表現更佳。在OpenAI的API中,GPT-4o的處理速度是GPT-4(特別是 GPT-4 Turbo)的兩倍,價格則是GPT-4 Turbo的一半,同時擁有更高的速率限制。
OpenAI官網介紹稱,GPT-4o最快可以在232毫秒的時間內響應音頻輸入,平均響應時間為320毫秒,這與人類在對話中的響應時間相似。它在英語文本和代碼方面的性能與GPT-4 Turbo的性能一致,并且在非英語文本方面的性能有了顯著提高。
用戶只需發(fā)出簡單的“嘿,ChatGPT”語音提示,即可獲得代理的口語回應。然后,用戶可以用口語提交查詢,并在必要時附上文字、音頻或視覺效果——后者可包括照片、手機攝像頭的實時畫面或代理能“看到”的任何其他內容。
能力三:在推理及音頻翻譯方面樹立新標桿
據OpenAI研究人員William Fedus透露,GPT-4o實際上就是上周在LMSYS模型競技場上引起整個AI圈瘋狂試用的GPT-2模型的另一版本,并附上了GPT-4o的基準測試評分對比圖,相比GPT-4 Turbo提升了超過100個單位。
推理能力方面,GPT-4o在MMLU、GPQA、MATH、HumanEval等測試基準上均超越GPT-4 Turbo、Claude 3 Opusn、Gemini Pro 1.5等前沿模型,取得最高分。
圖片來源:OpenAI
音頻ASR(智能語音識別)性能方面,GPT-4o相比Whisper-v3,在所有語言的語音識別性能上均大幅提高,尤其是資源較少的語言。
圖片來源:OpenAI
音頻翻譯方面,GPT-4o也樹立了新的標桿,在MLS基準測試中優(yōu)于Whisper-v3以及Meta、谷歌的語音模型。
圖片來源:OpenAI
評價褒貶不一,有網友認為壓力給到Siri了雖然并未在OpenAI周一的重磅直播演示中現身,但OpenAI的CEO阿爾特曼對這次演示進行了重要的總結。阿爾特曼稱,OpenAI在ChatGPT中免費提供了世界上最好的模型,新的語音和視頻模式是他用過的最好的計算交互界面,感覺就像電影里的人工智能一樣,達到與人類相似的響應速度和表達能力。
目前,GPT-4o的文本和圖像功能開始在ChatGPT中免費推出,Plus用戶可以享受到5倍的調用額度。在接下來的幾周內,OpenAI將在ChatGPT Plus中推出Voice Mode新版本,該版本帶有GPT-4o。
而在社交媒體平臺X(原推特)上,網友對ChatGPT-4o的評價卻褒貶不一。
英偉達科學家Jim Fan評論稱,“從技術角度來看,OpenAI已經找到了一種方法,可以將音頻直接映射到音頻作為一級模態(tài),并將視頻實時傳輸到transformer。這些需要對token化和架構進行一些新的研究,但總體來說是一個數據和系統(tǒng)優(yōu)化問題(大多數事情都是如此)。”
圖片來源:X
對于OpenAI推出的新模型和UI更新,有網友稱,感覺到目前為止OpenAI沒有那么開創(chuàng)性。
圖片來源:X
也有網友指出,GPT-4o不僅可以將語音轉換為文本,還可以理解和標記音頻的其他特征,例如呼吸和情感,但不確定這在模型響應中是如何表達的。
圖片來源:X
但大部分網友還是給出了非常積極的看法。
對于阿爾特曼在X上留下的一句“her”,這似乎是暗示ChatGPT實現了經典電影《她》(Her)中像人類一樣“有血有肉”的AI,有網友對此評論:“你終于做到了?!辈⑴淞艘粡垖㈦娪啊端穭≌罩械腁I“換頭”成OpenAI的梗圖。
圖片來源:X
圖片來源:X
另有網友評價稱,“這太瘋狂了。OpenAI剛剛推出了ChatGPT- 4o,它將徹底改變人工智能助手的競賽,”該網友還列舉了10個ChatGPT- 4o“瘋狂”的案例,例如實時視覺輔助等等。
圖片來源:X
還有網友以可汗學院的可汗和他兒子一起使用 GPT-4o 輔導孩子在可汗學院上做數學題的示例點評稱,“學生將他們的iPad屏幕與新的ChatGPT-4+GPT-4o共享,AI與他們交談并幫助他們‘實時’學習。想象一下,如果世界上每一個學生都能這樣學習,未來是如此光明。”
圖片來源:X
也有網友覺得OpenAI進一步拉開了和蘋果的差距,還發(fā)了一張人滿頭大汗的動圖,稱現在蘋果的語音助手Siri現在應該就是這個樣子。
圖片來源:X
對于這點,Quartz報道稱,GPT-4o的情感屬性使AI聊天機器人比蘋果的Siri更加個性化。Siri給人的感覺就像在和一個機器人對話,但OpenAI的演示清楚地表明,GPT-4o具有“人工情感智能”,能夠識別用戶的情感并與你的情緒相匹配。這讓GPT-4o感覺就像一個真正的伴侶,為用戶的智能手機操作系統(tǒng)增添了一絲人性。
實際上,為了應對技術威脅,蘋果也在與OpenAI進行合作洽談。Wedbush分析師Dan Ives在一份報告中預計,蘋果將在6月10日的WWDC大會上官宣和OpenAI的合作伙伴關系,并推出基于蘋果LLM的AI聊天機器人。
記者|蔡鼎
編輯|蘭素英?孫志成 杜波
校對|何小桃
|每日經濟新聞 ?nbdnews??原創(chuàng)文章|
未經許可禁止轉載、摘編、復制及鏡像等使用
如需轉載請與《每日經濟新聞》報社聯(lián)系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關注每日經濟新聞APP