每日經(jīng)濟(jì)新聞
要聞

每經(jīng)網(wǎng)首頁 > 要聞 > 正文

解密 | ChatGPT為何能“打敗”眾多大模型,除了千億級參數(shù),還有什么?

每日經(jīng)濟(jì)新聞 2023-02-20 22:12:47

◎Jie Wang認(rèn)為,ChatGPT有潛力成為下一個改變世界的超級工具。

每經(jīng)記者 文巧    每經(jīng)編輯 高涵

ChatGPT在互聯(lián)網(wǎng)上的風(fēng)暴已經(jīng)上演了許久。近期,在谷歌Bard和微軟必應(yīng)(Bing)接連翻車的情況下,市場對ChatGPT的態(tài)度已經(jīng)從“新鮮”開始向“理性”過渡。不過,國內(nèi)外資本對ChatGPT的熱捧仍然有持續(xù)之勢。

誠然,全世界都見證了ChatGPT的強(qiáng)大,但實際上,在自然語言處理(NLP)領(lǐng)域, ChatGPT并非第一個基于大型語言模型的產(chǎn)物。早在2018年,NLP領(lǐng)域演變出來的另一個產(chǎn)物BERT問世,一度被認(rèn)為在自然語言理解類任務(wù)中發(fā)揮得非常出色。

那么,是什么讓ChatGPT一經(jīng)問世就獲得了前所未有的關(guān)注?它到底強(qiáng)大在哪里?憑什么在眾多大型語言模型中脫穎而出?

關(guān)于上述問題,《每日經(jīng)濟(jì)新聞》記者采訪了馬薩諸塞大學(xué)(又稱麻省大學(xué))洛厄爾分校計算機(jī)科學(xué)教授Jie Wang。他認(rèn)為,ChatGPT最主要的突破在于其背后架構(gòu)GPT-3.5中使用的few-shots(小樣本)和用戶反饋的技術(shù)。而且,ChatGPT擁有其他語言模型所不具備的千億級別參數(shù)規(guī)模,也允許它能夠捕獲更復(fù)雜的語言模式和關(guān)系。

人類已經(jīng)經(jīng)歷了數(shù)次超級工具的誕生,例如,互聯(lián)網(wǎng)和智能手機(jī),其引發(fā)的科技革命極大地改變了人們的思維和生活方式。在Jie Wang看來,如果用ChatGPT來代表基于大型通用語言模型的應(yīng)用,那么ChatGPT有潛力成為下一個改變世界的超級工具。

技術(shù)原理:一場“概率游戲”

ChatGPT之所以能夠成為一個現(xiàn)象級的火爆應(yīng)用,在于它能夠自動生成類似于人類撰寫的文本,這一點非常引人注目,也非常出乎意料。那么,為什么ChatGPT能夠如此出色地生成有意義的文本呢?

我們先從ChatGPT所屬的NLP領(lǐng)域說起。NLP,即自然語言處理,是人工智能的一個領(lǐng)域,專注于讓計算機(jī)能夠理解、解釋和生成人類語言。

人類語言非常豐富和微妙,可以根據(jù)上下文、語氣和其他因素以多種不同的方式表達(dá),如何處理人類語言的復(fù)雜性和可變性也成為NLP領(lǐng)域的主要任務(wù)之一。NLP技術(shù)是ChatGPT能夠出色地生成類似于人類撰寫的文本的基礎(chǔ)。

“最先進(jìn)的NLP技術(shù)是文本到文本的轉(zhuǎn)換,它基于一個超大型的多層編碼器-解碼器神經(jīng)網(wǎng)絡(luò),這個神經(jīng)網(wǎng)絡(luò)能在超大規(guī)模的無監(jiān)督數(shù)據(jù)集上對數(shù)十億參數(shù)進(jìn)行訓(xùn)練,“在談及NLP時,Jie Wang向《每日經(jīng)濟(jì)新聞》記者介紹道。

在對NLP的主要任務(wù)有一個基本的理解之后,我們再來談?wù)凜hatGPT的技術(shù)原理。眾所周知的是,ChatGPT是一種聊天機(jī)器人產(chǎn)品,它基于OpenAI的大型語言模型架構(gòu)GPT-3.5。

2月15日,計算機(jī)科學(xué)家Stephen Wolfram在推特發(fā)表了一篇萬字長文來解釋ChatGPT的工作原理。在這篇文章中,Wolfram提到,ChatGPT的核心任務(wù)是對已有的文本生成一個“合理的延續(xù)”,“合理”的意思是,根據(jù)人類在數(shù)十億個網(wǎng)頁中撰寫的內(nèi)容的規(guī)律,來推測接下來可能出現(xiàn)的內(nèi)容。

Wolfram舉了一個例子,比如輸入以下文本:“AI最好之處在于它()的能力”,為了補(bǔ)充括號中的內(nèi)容,ChatGPT會在數(shù)十億個網(wǎng)頁中查找類似文本,統(tǒng)計下一個單詞出現(xiàn)的概率。最終,ChatGPT會生成一個可能的單詞列表,并給出每個單詞的概率排名。這就是它的“概率游戲”。

圖片來源:文章截圖

脫穎而出的背后:創(chuàng)新訓(xùn)練方式、千億參數(shù)規(guī)模

實際上,ChatGPT并非第一個基于大型語言模型的產(chǎn)物。早在2018年,NLP領(lǐng)域演變出來的另一個基于大型語言模型的產(chǎn)物——BERT已經(jīng)出世,并一度被認(rèn)為在自然語言理解類任務(wù)中發(fā)揮得非常出色。那么,為什么相比之下,只有ChatGPT能夠引起如此大的轟動呢?

首先在于GPT-3.5訓(xùn)練方式上的創(chuàng)新。

GPT-3.5的前身是GPT-3。據(jù)Jie Wang介紹,“GPT-3之前的大型語言模型,通常是通過在非常大的數(shù)據(jù)集上使用自我監(jiān)督學(xué)習(xí)的方式,來計算多個任務(wù)的單詞和句子之間的上下文關(guān)系,從而達(dá)到訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的目的。不過,這樣一個經(jīng)過訓(xùn)練的模型仍然需要進(jìn)行微調(diào)(fine-tuning)來執(zhí)行特定任務(wù)。”

值得注意的是,BERT所使用的方式就是微調(diào)。這種方式的局限性就在于,“微調(diào)既費(fèi)時又費(fèi)錢,”Jie Wang說道,“通常需要特定的標(biāo)記數(shù)據(jù)集。”

當(dāng)GPT-3出現(xiàn)后,問題得到了解決,這也是ChatGPT最具突破性的創(chuàng)舉的基礎(chǔ)。“GPT-3僅使用幾個特定的任務(wù)示例來簡化微調(diào)的過程,這些任務(wù)示例被稱作‘few shots’(小樣本),”Jie Wang解釋道,“它產(chǎn)生的結(jié)果與最先進(jìn)的微調(diào)過程獲得的結(jié)果相同或相似,這項技術(shù)大大提高了生產(chǎn)率。GPT-3.5則進(jìn)一步使用用戶反饋來提高few shots生成結(jié)果的準(zhǔn)確性。”

也就是說,“(ChatGPT)主要的突破是GPT-3.5中使用的‘few-shots’結(jié)合用戶反饋的技術(shù),”Jie Wang向《每日經(jīng)濟(jì)新聞》記者總結(jié)道。

(編者注:few shots learning即小樣本學(xué)習(xí),在機(jī)器學(xué)習(xí)領(lǐng)域中泛指從少量標(biāo)注數(shù)據(jù)中學(xué)習(xí)的方法和場景。)

那么,如何來理解few shots呢?這里我們需要理解另一個概念——提示(prompting)。“提示是ChatGPT接受用戶反饋的形式,”Jie Wang說道。

prompting實際上就是給模型一點小提示。舉一個非常簡單的例子,當(dāng)每經(jīng)記者使用ChatGPT輔助新聞寫作時,需要ChatGPT對一段較長的新聞進(jìn)行歸納總結(jié)或生成一個標(biāo)題。這時,可以給ChatGPT一點小提示——例如,Mary是“《紐約時報》”一位“非常資深”的編輯,她需要幾個“吸睛的”標(biāo)題。

通過引號中三個關(guān)鍵詞的提示,相比于簡單地要求“生成一個標(biāo)題”,這些小提示會讓ChatGPT生成的內(nèi)容得到明顯提升。

其次,ChatGPT的強(qiáng)大還在于其超大的參數(shù)規(guī)模。ChatGPT基于8000億個單詞的語料庫(或45TB的文本數(shù)據(jù)),包含了1750億個參數(shù)。8000億是ChatGPT的訓(xùn)練數(shù)據(jù),1750億是它從這些訓(xùn)練數(shù)據(jù)中所學(xué)習(xí)、沉淀下來的內(nèi)容。

“之前最大的模型也只是百億參數(shù),不是千億級別的,”Jie Wang說道。公開資料顯示,這種更大的參數(shù)規(guī)模允許ChatGPT能夠捕獲更復(fù)雜的語言模式和關(guān)系,從而提高復(fù)雜自然語言處理任務(wù)的準(zhǔn)確性。

據(jù)美國《時代周刊》上月中旬的報道,為了訓(xùn)練ChatGPT,OpenAI雇傭了時薪不到2美元的肯尼亞外包勞工,他們所負(fù)責(zé)的工作就是對龐大的數(shù)據(jù)庫手動進(jìn)行數(shù)據(jù)標(biāo)注。報道中提到,OpenAI在2021年底與位于舊金山的外包公司Sama簽署了三份總價值約20萬美元的合同,為其數(shù)據(jù)庫中的有害內(nèi)容進(jìn)行標(biāo)記。

圖片來源:每日經(jīng)濟(jì)新聞 劉雪梅 攝(資料圖)

商業(yè)落地:離通用AI還有多遠(yuǎn)?

ChatGPT已經(jīng)展現(xiàn)了在NLP領(lǐng)域的強(qiáng)大能力,那么,它是否可以從NLP領(lǐng)域走向其他AI領(lǐng)域呢?

Jie Wang認(rèn)為答案是肯定的。“在T5、GPT-3和GPT-3.5中發(fā)展起來的主要技術(shù),即自我監(jiān)督學(xué)習(xí)、few-shot微調(diào),以及結(jié)合用戶反饋的方式,當(dāng)然可以在其他AI領(lǐng)域進(jìn)一步修改和應(yīng)用,”他向《每日經(jīng)濟(jì)新聞》記者說道。

看看BERT就知道了,雖然“出身”于NLP領(lǐng)域,但已經(jīng)廣泛應(yīng)用于其他AI領(lǐng)域。據(jù)Jie Wang介紹,BERT這類語言模型,基于遞歸神經(jīng)網(wǎng)絡(luò)(RNN)、雙向長短期記憶(Bi-LSTM)等來計算捕獲潛在語義和句法信息的單詞和句子,這些神經(jīng)網(wǎng)絡(luò)構(gòu)建技術(shù)已廣泛應(yīng)用于圖像處理等其他領(lǐng)域。

科技研究和咨詢公司Gartner在近期發(fā)布的一篇報告中提及了ChatGPT的集中應(yīng)用方向,一是開放API訪問權(quán)限。據(jù)悉,微軟就計劃為即將推出的Azure OpenAI ChatGPT提供API;二是在銷售、營銷、個性化教育以及個性化醫(yī)療保健領(lǐng)域得以應(yīng)用。

不過,目前來看,ChatGPT廣泛的商業(yè)落地仍然還有一些難題。“我能看到的其中一個障礙是,ChatGPT提供的結(jié)果是不可信任的,”Jie Wang說道。

OpenAI的首席執(zhí)行官Sam Altman此前也曾在推特上表示,ChatGPT還有很大的局限性,它在某些方面非常出色以至于給人一種誤導(dǎo)的印象。“現(xiàn)在依賴它來做任何事情都是錯誤的,我們在穩(wěn)健性和準(zhǔn)確性上還有很多工作要做,”他這樣寫道。

在許多人的幻想中,未來的某一天,會出現(xiàn)具備與人類同等智慧、或超越人類的AI,能表現(xiàn)正常人類所具有的所有智能行為,它能思考、能判斷,有思想、有倫理——這就是通用AI。ChatGPT能夠引起如此轟動的原因也在于,有人認(rèn)為,它的出現(xiàn)似乎讓世界看到了通用AI的曙光。

人類已經(jīng)經(jīng)歷了數(shù)次超級工具的誕生,互聯(lián)網(wǎng)和智能手機(jī)的出現(xiàn)引發(fā)了科技革命,并且極大地改變了人們的思維和生活方式。在Jie Wang看來,如果用ChatGPT來代表基于大型通用語言模型的應(yīng)用,那么ChatGPT有潛力成為下一個改變世界的超級工具。“我認(rèn)為它有可能改變?nèi)藗冮_展業(yè)務(wù)的方式,”他說道。

不過,現(xiàn)實情況是,ChatGPT離通用AI的終點,仍然還有一段很長的路要走。

如需轉(zhuǎn)載請與《每日經(jīng)濟(jì)新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。

讀者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。

人工智能 ChatGPT

歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

每經(jīng)經(jīng)濟(jì)新聞官方APP

0

0

免费va国产高清不卡大片,笑看风云电视剧,亚洲黄色性爱在线观看,成人 在线 免费