每日經(jīng)濟(jì)新聞 2023-03-15 20:24:48
◎GPT-4擁有強(qiáng)大的識(shí)圖能力,支持最長(zhǎng)50頁(yè)文本,準(zhǔn)確性也顯著提高。有用戶用ChatGPT-4一分鐘重建游戲,寫《紅樓夢(mèng)》也不在話下。
每經(jīng)記者 文巧 每經(jīng)編輯 譚玉涵
圖片來(lái)源:視覺(jué)中國(guó)
北京時(shí)間月3月15日凌晨,距ChatGPT發(fā)布不到4個(gè)月,OpenAI公司再次發(fā)布了一個(gè)王炸級(jí)別消息——正式公布多模態(tài)預(yù)訓(xùn)練大模型GPT-4。本應(yīng)于周四發(fā)布的GPT-4提前了一天多的時(shí)間揭開(kāi)神秘面紗,也讓許多人感到猝不及防。
OpenAI創(chuàng)始人Sam Altman在推特上直言不諱地稱其為該公司“迄今為止功能最強(qiáng)大、最一致的模型”。很快,GPT-4上線僅幾分鐘后,大批新的訂閱用戶涌入,OpenAI的付款系統(tǒng)被擠爆了。
目前,GPT-4僅限ChatGPT的Plus訂閱用戶使用,其他用戶需要排隊(duì)申請(qǐng)內(nèi)測(cè)。率先體驗(yàn)了GPT-4的IT從業(yè)人員Wang告訴《每日經(jīng)濟(jì)新聞》記者,“推理能力非常贊。”不過(guò),他認(rèn)為,和人類比(GPT-4生成的內(nèi)容)還是較弱,“我傾向于認(rèn)為,它應(yīng)該沒(méi)有元?jiǎng)?chuàng)新能力。”
與門庭若市的GPT-4相比,谷歌的門前就顯得異常冷清了。當(dāng)天,谷歌發(fā)布了一支預(yù)告片,演示了整合其AI功能的Work Space功能,但在GPT-4的光環(huán)之下黯然失色。
記者注意到,在GPT-4中,支持圖像理解的功能是一個(gè)最大的飛躍?;诖?,GPT-4的API也區(qū)分了輸入端(即文本和圖像形式的prompt)和輸出端(生成文本),分別進(jìn)行收費(fèi),而GPT-4輸出端的最高價(jià)格大約是GPT-3.5 Turbo的60倍。
實(shí)際上,科技巨頭間圍繞多模態(tài)模型的較量也已經(jīng)展開(kāi),微軟、谷歌、Meta、Deepmind都發(fā)布了自己的多模態(tài)模型。未來(lái),多模態(tài)模型或?qū)⒊蔀锳I領(lǐng)域的兵家必爭(zhēng)之地。“我們認(rèn)為這是這場(chǎng)AI軍備競(jìng)賽中,GPT技術(shù)升級(jí)的又一重要步驟。截至目前,微軟的技術(shù)仍遠(yuǎn)高于谷歌。”Wedbush董事總經(jīng)理Daniel Ives告訴每經(jīng)記者。
在推特上,Sam Altman透露,GPT-4的初始訓(xùn)練已經(jīng)完成了很長(zhǎng)一段時(shí)間,但他和他的團(tuán)隊(duì)花了很長(zhǎng)時(shí)間和大量的工作才準(zhǔn)備好發(fā)布它。據(jù)OpenAI,團(tuán)隊(duì)花了6個(gè)月的時(shí)間使用對(duì)抗性測(cè)試程序和ChatGPT的經(jīng)驗(yàn)教訓(xùn),對(duì)GPT-4進(jìn)行迭代調(diào)整,從而在真實(shí)性、可控性等方面取得了有史以來(lái)最好的結(jié)果。
根據(jù)OpenAI的GPT-4文檔,這一次的GPT-4是一種多模態(tài)語(yǔ)言模型,能接受圖像和文本輸入,再輸出正確的文本回復(fù)。相較于ChatGPT基于的GPT-3.5模型,它擁有強(qiáng)大的識(shí)圖能力,文字輸入限制提升,準(zhǔn)確性顯著提高,風(fēng)格上也有了變化,例如能夠生成歌詞和創(chuàng)意文本。
有推特用戶表示,他僅花了60秒鐘的時(shí)間就用GPT-4重建了一個(gè)名為“Pong”的游戲。“我不在乎這是不是通用AI,但GPT-4是一項(xiàng)令人難以置信的變革性技術(shù)。事情徹底變了。”
圖片來(lái)源:推特
有用戶直接讓GPT-4續(xù)寫紅樓夢(mèng),結(jié)果有模有樣。
圖片來(lái)源:某社交媒體
一位IT從業(yè)人員Wang已經(jīng)率先體驗(yàn)了GPT-4的強(qiáng)大功能,他告訴《每日經(jīng)濟(jì)新聞》記者,“簡(jiǎn)單試了一下,推理能力非常贊。”他認(rèn)為,在一定程度上,GPT-4的回答已經(jīng)并非基于網(wǎng)上信息的整合,而是有一些真正的推理能力了。
記者在多個(gè)AIGC討論群組中注意到,相比于GPT-3.5,GPT-4在許多問(wèn)題上的回答確實(shí)游刃有余,也能識(shí)別問(wèn)題中的錯(cuò)誤信息。
圖片來(lái)源:微信群
值得注意的是,在GPT-4模型中,支持圖像理解的功能是一個(gè)最大的飛躍。上周,微軟德國(guó)的CEO在接受訪問(wèn)時(shí)透露,即將發(fā)布的GPT-4將支持視頻,盡管這次的發(fā)布并未展現(xiàn)出支持視頻的功能,但這個(gè)新的功能已經(jīng)讓許多人感嘆,“這一波直接王炸!”、“能革OpenAI命的只有OpenAI!”
在OpenAI公布的展示視頻中,Open AI的聯(lián)合創(chuàng)始人兼總裁Greg Brockman僅僅提供了一個(gè)Html頁(yè)面的草稿,GPT-4僅用10秒時(shí)間就直接生成了這個(gè)頁(yè)面的代碼。
圖片來(lái)源:OpenAI視頻截圖
此外,另一個(gè)備受關(guān)注的飛躍式提升是,GPT-4提供了更長(zhǎng)的文字輸入限制。OpenAI官網(wǎng)顯示,GPT-4分為兩個(gè)版本,一個(gè)支持的最長(zhǎng)Token為8192,另一個(gè)支持的最長(zhǎng)Token是32768(大約50頁(yè)文本)。這分別是此前ChatGPT上下文長(zhǎng)度的2倍和8倍。
圖片來(lái)源:OpenAI官網(wǎng)
在發(fā)布了GPT-4模型之后,OpenAI直接將ChatGPT升級(jí)成了GPT-4版,并且還一口氣發(fā)布了GPT-4的API接口。
記者注意到,相較于OpenAI此前公布的GPT-3.5 Turbo版本的API,GPT-4的API價(jià)格有了明顯的提升。由于GPT-4提供了圖像理解功能,其區(qū)分了輸入端(即文本和圖像形式的prompt)和輸出端(生成文本)。
在GPT-4 8K版本中,輸入端的價(jià)格為每1000個(gè)Token (約750個(gè)單詞)0.03美元,輸出端的價(jià)格為每1000個(gè)Token 0.06美元;在GPT-4 32K版本中,輸入端為每1000個(gè)Token 0.06美元,輸出端為每1000個(gè)Token 0.12美元。
相比之下,3月1日發(fā)布的GPT-3.5 Turbo 的API價(jià)格僅為每1000個(gè)Token 0.002美元。此前個(gè)人創(chuàng)業(yè)者王紹在接受每經(jīng)記者采訪時(shí)曾表示,基本上是每1000個(gè)漢字大約3分錢的成本。
若按此計(jì)算,GPT-4 32K版本的輸出端價(jià)格達(dá)到了每1000個(gè)漢字大約1.8元,是GPT-3.5 Turbo的60倍,明顯成本大幅增加。
圖片來(lái)源:OpenAI官網(wǎng)
每經(jīng)記者在相關(guān)討論群中也注意到,許多開(kāi)發(fā)者對(duì)此議論紛紛。
圖片來(lái)源:微信截圖
GPT-4的價(jià)格為何上漲如此之多?我們首先得回到GPT-4最大的改變——多模態(tài)模型。多模態(tài)系統(tǒng)一直是AI領(lǐng)域的發(fā)展范式,單個(gè)系統(tǒng)將包含各種數(shù)據(jù)類型(如文本、語(yǔ)音、圖像或視頻)輸入和輸出的能力。
一位產(chǎn)品經(jīng)理在他的微信公眾號(hào)上評(píng)價(jià)稱,GPT-4才是真正的多模態(tài)模型,這意味著在預(yù)訓(xùn)練過(guò)程中圖像就是重要的一環(huán),它能夠真正理解圖像,并非簡(jiǎn)單利用一些圖文工具實(shí)現(xiàn)模型對(duì)圖像的轉(zhuǎn)換,這也是GPT-4的真正的魅力所在。
Wang告訴每經(jīng)記者,相比之前只支持文本的模型來(lái)說(shuō),多模態(tài)模型肯定會(huì)提升在算力、訓(xùn)練方面的成本。
2月27日,微軟發(fā)布了KOSMOS-1多模態(tài)語(yǔ)言模型,支持進(jìn)行圖像內(nèi)容的理解并對(duì)話。據(jù)該論文,在多模態(tài)模型的訓(xùn)練過(guò)程中,不止會(huì)用到文本數(shù)據(jù),還包括任意交錯(cuò)的文本和圖像、圖像標(biāo)題數(shù)據(jù)。這樣一來(lái),訓(xùn)練難度肯定有所增加。如此看來(lái),GPT-4的API價(jià)格上漲也說(shuō)得通了。
GPT-4當(dāng)然還遠(yuǎn)不能稱之為完美。“它與早期的GPT模型有類似的局限性:它不完全可靠、上下文窗口有限,并且不能從過(guò)往經(jīng)驗(yàn)中進(jìn)行自主學(xué)習(xí)。”OpenAI如此說(shuō)道。
不過(guò),OpenAI 也表示在特定領(lǐng)域做出了改進(jìn)。與GPT-3.5 相比,GPT-4總體上響應(yīng)“不允許內(nèi)容”請(qǐng)求的可能性降低了82%,并且以符合公司政策的形式響應(yīng)敏感請(qǐng)求(如醫(yī)療建議和任何與自我傷害有關(guān)的事情)概率增加29%。
在Wang看來(lái),“和人類比(GPT-4生成的內(nèi)容)還是較弱的,我傾向于認(rèn)為,它應(yīng)該沒(méi)有元?jiǎng)?chuàng)新能力。”他進(jìn)一步解釋說(shuō),元?jiǎng)?chuàng)新能力即從無(wú)到有創(chuàng)造一個(gè)概念出來(lái),而非把幾個(gè)東西拼湊起來(lái)的創(chuàng)新。
在GPT-4這個(gè)多模態(tài)模型發(fā)布后,微軟也證實(shí),其基于ChatGPT的新版必應(yīng)正是基于GPT-4模型而運(yùn)行。
此外,OpenAI還公布了一些早期的應(yīng)用者。其中包括 Stripe,它使用 GPT-4 掃描商業(yè)網(wǎng)站并向客戶支持人員提供摘要;Duolingo將 GPT-4 構(gòu)建到新的語(yǔ)言學(xué)習(xí)訂閱層中;摩根士丹利正在創(chuàng)建一個(gè)由 GPT-4 驅(qū)動(dòng)的系統(tǒng),將從公司文件中檢索信息并將其提供給金融分析師;可汗學(xué)院則正在利用 GPT-4 構(gòu)建某種自動(dòng)化導(dǎo)師。
每經(jīng)記者注意到,多模態(tài)模型或?qū)⒊蔀槲磥?lái)的兵家必爭(zhēng)之地。
在前述微軟的論文中,科學(xué)家們這樣寫道,“語(yǔ)言、多模式感知、動(dòng)作和世界建模的大融合是通向通用AI的關(guān)鍵一步……作為智能的基本組成部分,在知識(shí)獲取方面,多模態(tài)感知,是實(shí)現(xiàn)通用AI的必要條件。”
上述論文也提到,多模態(tài)語(yǔ)言模型提供了一些新的用途和可能性。例如,它能夠自然地支持一般模式的多回合交互和多模式下的對(duì)話。
實(shí)際上,科技巨頭間圍繞多模態(tài)模型的較量也已經(jīng)展開(kāi)。沿著類似的思路,谷歌發(fā)布了PaLM-E,這是一個(gè)與Kosmos-1非常相似的多模態(tài)模型;類似的多模態(tài)模型還有Meta的LLaMA、 Omnivore、FLAVA、CM3 和 Data2vec,都是采用多模式方法來(lái)解決不同的任務(wù),如語(yǔ)音、視覺(jué)、文本,甚至 3D;此外,DeepMind也于2022 年 11 月發(fā)布了Gato多模態(tài)模型。
(每經(jīng)記者蔡鼎亦對(duì)文本有所貢獻(xiàn))
如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP