每日經(jīng)濟(jì)新聞 2023-03-15 20:24:48
◎GPT-4擁有強(qiáng)大的識圖能力,支持最長50頁文本,準(zhǔn)確性也顯著提高。有用戶用ChatGPT-4一分鐘重建游戲,寫《紅樓夢》也不在話下。
每經(jīng)記者 文巧 每經(jīng)編輯 譚玉涵
圖片來源:視覺中國
北京時間月3月15日凌晨,距ChatGPT發(fā)布不到4個月,OpenAI公司再次發(fā)布了一個王炸級別消息——正式公布多模態(tài)預(yù)訓(xùn)練大模型GPT-4。本應(yīng)于周四發(fā)布的GPT-4提前了一天多的時間揭開神秘面紗,也讓許多人感到猝不及防。
OpenAI創(chuàng)始人Sam Altman在推特上直言不諱地稱其為該公司“迄今為止功能最強(qiáng)大、最一致的模型”。很快,GPT-4上線僅幾分鐘后,大批新的訂閱用戶涌入,OpenAI的付款系統(tǒng)被擠爆了。
目前,GPT-4僅限ChatGPT的Plus訂閱用戶使用,其他用戶需要排隊(duì)申請內(nèi)測。率先體驗(yàn)了GPT-4的IT從業(yè)人員Wang告訴《每日經(jīng)濟(jì)新聞》記者,“推理能力非常贊。”不過,他認(rèn)為,和人類比(GPT-4生成的內(nèi)容)還是較弱,“我傾向于認(rèn)為,它應(yīng)該沒有元創(chuàng)新能力。”
與門庭若市的GPT-4相比,谷歌的門前就顯得異常冷清了。當(dāng)天,谷歌發(fā)布了一支預(yù)告片,演示了整合其AI功能的Work Space功能,但在GPT-4的光環(huán)之下黯然失色。
記者注意到,在GPT-4中,支持圖像理解的功能是一個最大的飛躍?;诖?,GPT-4的API也區(qū)分了輸入端(即文本和圖像形式的prompt)和輸出端(生成文本),分別進(jìn)行收費(fèi),而GPT-4輸出端的最高價格大約是GPT-3.5 Turbo的60倍。
實(shí)際上,科技巨頭間圍繞多模態(tài)模型的較量也已經(jīng)展開,微軟、谷歌、Meta、Deepmind都發(fā)布了自己的多模態(tài)模型。未來,多模態(tài)模型或?qū)⒊蔀锳I領(lǐng)域的兵家必爭之地。“我們認(rèn)為這是這場AI軍備競賽中,GPT技術(shù)升級的又一重要步驟。截至目前,微軟的技術(shù)仍遠(yuǎn)高于谷歌。”Wedbush董事總經(jīng)理Daniel Ives告訴每經(jīng)記者。
在推特上,Sam Altman透露,GPT-4的初始訓(xùn)練已經(jīng)完成了很長一段時間,但他和他的團(tuán)隊(duì)花了很長時間和大量的工作才準(zhǔn)備好發(fā)布它。據(jù)OpenAI,團(tuán)隊(duì)花了6個月的時間使用對抗性測試程序和ChatGPT的經(jīng)驗(yàn)教訓(xùn),對GPT-4進(jìn)行迭代調(diào)整,從而在真實(shí)性、可控性等方面取得了有史以來最好的結(jié)果。
根據(jù)OpenAI的GPT-4文檔,這一次的GPT-4是一種多模態(tài)語言模型,能接受圖像和文本輸入,再輸出正確的文本回復(fù)。相較于ChatGPT基于的GPT-3.5模型,它擁有強(qiáng)大的識圖能力,文字輸入限制提升,準(zhǔn)確性顯著提高,風(fēng)格上也有了變化,例如能夠生成歌詞和創(chuàng)意文本。
有推特用戶表示,他僅花了60秒鐘的時間就用GPT-4重建了一個名為“Pong”的游戲。“我不在乎這是不是通用AI,但GPT-4是一項(xiàng)令人難以置信的變革性技術(shù)。事情徹底變了。”
圖片來源:推特
有用戶直接讓GPT-4續(xù)寫紅樓夢,結(jié)果有模有樣。
圖片來源:某社交媒體
一位IT從業(yè)人員Wang已經(jīng)率先體驗(yàn)了GPT-4的強(qiáng)大功能,他告訴《每日經(jīng)濟(jì)新聞》記者,“簡單試了一下,推理能力非常贊。”他認(rèn)為,在一定程度上,GPT-4的回答已經(jīng)并非基于網(wǎng)上信息的整合,而是有一些真正的推理能力了。
記者在多個AIGC討論群組中注意到,相比于GPT-3.5,GPT-4在許多問題上的回答確實(shí)游刃有余,也能識別問題中的錯誤信息。
圖片來源:微信群
值得注意的是,在GPT-4模型中,支持圖像理解的功能是一個最大的飛躍。上周,微軟德國的CEO在接受訪問時透露,即將發(fā)布的GPT-4將支持視頻,盡管這次的發(fā)布并未展現(xiàn)出支持視頻的功能,但這個新的功能已經(jīng)讓許多人感嘆,“這一波直接王炸!”、“能革OpenAI命的只有OpenAI!”
在OpenAI公布的展示視頻中,Open AI的聯(lián)合創(chuàng)始人兼總裁Greg Brockman僅僅提供了一個Html頁面的草稿,GPT-4僅用10秒時間就直接生成了這個頁面的代碼。
圖片來源:OpenAI視頻截圖
此外,另一個備受關(guān)注的飛躍式提升是,GPT-4提供了更長的文字輸入限制。OpenAI官網(wǎng)顯示,GPT-4分為兩個版本,一個支持的最長Token為8192,另一個支持的最長Token是32768(大約50頁文本)。這分別是此前ChatGPT上下文長度的2倍和8倍。
圖片來源:OpenAI官網(wǎng)
在發(fā)布了GPT-4模型之后,OpenAI直接將ChatGPT升級成了GPT-4版,并且還一口氣發(fā)布了GPT-4的API接口。
記者注意到,相較于OpenAI此前公布的GPT-3.5 Turbo版本的API,GPT-4的API價格有了明顯的提升。由于GPT-4提供了圖像理解功能,其區(qū)分了輸入端(即文本和圖像形式的prompt)和輸出端(生成文本)。
在GPT-4 8K版本中,輸入端的價格為每1000個Token (約750個單詞)0.03美元,輸出端的價格為每1000個Token 0.06美元;在GPT-4 32K版本中,輸入端為每1000個Token 0.06美元,輸出端為每1000個Token 0.12美元。
相比之下,3月1日發(fā)布的GPT-3.5 Turbo 的API價格僅為每1000個Token 0.002美元。此前個人創(chuàng)業(yè)者王紹在接受每經(jīng)記者采訪時曾表示,基本上是每1000個漢字大約3分錢的成本。
若按此計(jì)算,GPT-4 32K版本的輸出端價格達(dá)到了每1000個漢字大約1.8元,是GPT-3.5 Turbo的60倍,明顯成本大幅增加。
圖片來源:OpenAI官網(wǎng)
每經(jīng)記者在相關(guān)討論群中也注意到,許多開發(fā)者對此議論紛紛。
圖片來源:微信截圖
GPT-4的價格為何上漲如此之多?我們首先得回到GPT-4最大的改變——多模態(tài)模型。多模態(tài)系統(tǒng)一直是AI領(lǐng)域的發(fā)展范式,單個系統(tǒng)將包含各種數(shù)據(jù)類型(如文本、語音、圖像或視頻)輸入和輸出的能力。
一位產(chǎn)品經(jīng)理在他的微信公眾號上評價稱,GPT-4才是真正的多模態(tài)模型,這意味著在預(yù)訓(xùn)練過程中圖像就是重要的一環(huán),它能夠真正理解圖像,并非簡單利用一些圖文工具實(shí)現(xiàn)模型對圖像的轉(zhuǎn)換,這也是GPT-4的真正的魅力所在。
Wang告訴每經(jīng)記者,相比之前只支持文本的模型來說,多模態(tài)模型肯定會提升在算力、訓(xùn)練方面的成本。
2月27日,微軟發(fā)布了KOSMOS-1多模態(tài)語言模型,支持進(jìn)行圖像內(nèi)容的理解并對話。據(jù)該論文,在多模態(tài)模型的訓(xùn)練過程中,不止會用到文本數(shù)據(jù),還包括任意交錯的文本和圖像、圖像標(biāo)題數(shù)據(jù)。這樣一來,訓(xùn)練難度肯定有所增加。如此看來,GPT-4的API價格上漲也說得通了。
GPT-4當(dāng)然還遠(yuǎn)不能稱之為完美。“它與早期的GPT模型有類似的局限性:它不完全可靠、上下文窗口有限,并且不能從過往經(jīng)驗(yàn)中進(jìn)行自主學(xué)習(xí)。”OpenAI如此說道。
不過,OpenAI 也表示在特定領(lǐng)域做出了改進(jìn)。與GPT-3.5 相比,GPT-4總體上響應(yīng)“不允許內(nèi)容”請求的可能性降低了82%,并且以符合公司政策的形式響應(yīng)敏感請求(如醫(yī)療建議和任何與自我傷害有關(guān)的事情)概率增加29%。
在Wang看來,“和人類比(GPT-4生成的內(nèi)容)還是較弱的,我傾向于認(rèn)為,它應(yīng)該沒有元創(chuàng)新能力。”他進(jìn)一步解釋說,元創(chuàng)新能力即從無到有創(chuàng)造一個概念出來,而非把幾個東西拼湊起來的創(chuàng)新。
在GPT-4這個多模態(tài)模型發(fā)布后,微軟也證實(shí),其基于ChatGPT的新版必應(yīng)正是基于GPT-4模型而運(yùn)行。
此外,OpenAI還公布了一些早期的應(yīng)用者。其中包括 Stripe,它使用 GPT-4 掃描商業(yè)網(wǎng)站并向客戶支持人員提供摘要;Duolingo將 GPT-4 構(gòu)建到新的語言學(xué)習(xí)訂閱層中;摩根士丹利正在創(chuàng)建一個由 GPT-4 驅(qū)動的系統(tǒng),將從公司文件中檢索信息并將其提供給金融分析師;可汗學(xué)院則正在利用 GPT-4 構(gòu)建某種自動化導(dǎo)師。
每經(jīng)記者注意到,多模態(tài)模型或?qū)⒊蔀槲磥淼谋冶貭幹亍?/p>
在前述微軟的論文中,科學(xué)家們這樣寫道,“語言、多模式感知、動作和世界建模的大融合是通向通用AI的關(guān)鍵一步……作為智能的基本組成部分,在知識獲取方面,多模態(tài)感知,是實(shí)現(xiàn)通用AI的必要條件。”
上述論文也提到,多模態(tài)語言模型提供了一些新的用途和可能性。例如,它能夠自然地支持一般模式的多回合交互和多模式下的對話。
實(shí)際上,科技巨頭間圍繞多模態(tài)模型的較量也已經(jīng)展開。沿著類似的思路,谷歌發(fā)布了PaLM-E,這是一個與Kosmos-1非常相似的多模態(tài)模型;類似的多模態(tài)模型還有Meta的LLaMA、 Omnivore、FLAVA、CM3 和 Data2vec,都是采用多模式方法來解決不同的任務(wù),如語音、視覺、文本,甚至 3D;此外,DeepMind也于2022 年 11 月發(fā)布了Gato多模態(tài)模型。
(每經(jīng)記者蔡鼎亦對文本有所貢獻(xiàn))
如需轉(zhuǎn)載請與《每日經(jīng)濟(jì)新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP