每日經(jīng)濟(jì)新聞
要聞

每經(jīng)網(wǎng)首頁(yè) > 要聞 > 正文

解密 | ChatGPT為何能“打敗”眾多大模型,除了千億級(jí)參數(shù),還有什么?

每日經(jīng)濟(jì)新聞 2023-02-20 22:12:47

◎Jie Wang認(rèn)為,ChatGPT有潛力成為下一個(gè)改變世界的超級(jí)工具。

每經(jīng)記者 文巧    每經(jīng)編輯 高涵

ChatGPT在互聯(lián)網(wǎng)上的風(fēng)暴已經(jīng)上演了許久。近期,在谷歌Bard和微軟必應(yīng)(Bing)接連翻車(chē)的情況下,市場(chǎng)對(duì)ChatGPT的態(tài)度已經(jīng)從“新鮮”開(kāi)始向“理性”過(guò)渡。不過(guò),國(guó)內(nèi)外資本對(duì)ChatGPT的熱捧仍然有持續(xù)之勢(shì)。

誠(chéng)然,全世界都見(jiàn)證了ChatGPT的強(qiáng)大,但實(shí)際上,在自然語(yǔ)言處理(NLP)領(lǐng)域, ChatGPT并非第一個(gè)基于大型語(yǔ)言模型的產(chǎn)物。早在2018年,NLP領(lǐng)域演變出來(lái)的另一個(gè)產(chǎn)物BERT問(wèn)世,一度被認(rèn)為在自然語(yǔ)言理解類任務(wù)中發(fā)揮得非常出色。

那么,是什么讓ChatGPT一經(jīng)問(wèn)世就獲得了前所未有的關(guān)注?它到底強(qiáng)大在哪里?憑什么在眾多大型語(yǔ)言模型中脫穎而出?

關(guān)于上述問(wèn)題,《每日經(jīng)濟(jì)新聞》記者采訪了馬薩諸塞大學(xué)(又稱麻省大學(xué))洛厄爾分校計(jì)算機(jī)科學(xué)教授Jie Wang。他認(rèn)為,ChatGPT最主要的突破在于其背后架構(gòu)GPT-3.5中使用的few-shots(小樣本)和用戶反饋的技術(shù)。而且,ChatGPT擁有其他語(yǔ)言模型所不具備的千億級(jí)別參數(shù)規(guī)模,也允許它能夠捕獲更復(fù)雜的語(yǔ)言模式和關(guān)系。

人類已經(jīng)經(jīng)歷了數(shù)次超級(jí)工具的誕生,例如,互聯(lián)網(wǎng)和智能手機(jī),其引發(fā)的科技革命極大地改變了人們的思維和生活方式。在Jie Wang看來(lái),如果用ChatGPT來(lái)代表基于大型通用語(yǔ)言模型的應(yīng)用,那么ChatGPT有潛力成為下一個(gè)改變世界的超級(jí)工具。

技術(shù)原理:一場(chǎng)“概率游戲”

ChatGPT之所以能夠成為一個(gè)現(xiàn)象級(jí)的火爆應(yīng)用,在于它能夠自動(dòng)生成類似于人類撰寫(xiě)的文本,這一點(diǎn)非常引人注目,也非常出乎意料。那么,為什么ChatGPT能夠如此出色地生成有意義的文本呢?

我們先從ChatGPT所屬的NLP領(lǐng)域說(shuō)起。NLP,即自然語(yǔ)言處理,是人工智能的一個(gè)領(lǐng)域,專注于讓計(jì)算機(jī)能夠理解、解釋和生成人類語(yǔ)言。

人類語(yǔ)言非常豐富和微妙,可以根據(jù)上下文、語(yǔ)氣和其他因素以多種不同的方式表達(dá),如何處理人類語(yǔ)言的復(fù)雜性和可變性也成為NLP領(lǐng)域的主要任務(wù)之一。NLP技術(shù)是ChatGPT能夠出色地生成類似于人類撰寫(xiě)的文本的基礎(chǔ)。

“最先進(jìn)的NLP技術(shù)是文本到文本的轉(zhuǎn)換,它基于一個(gè)超大型的多層編碼器-解碼器神經(jīng)網(wǎng)絡(luò),這個(gè)神經(jīng)網(wǎng)絡(luò)能在超大規(guī)模的無(wú)監(jiān)督數(shù)據(jù)集上對(duì)數(shù)十億參數(shù)進(jìn)行訓(xùn)練,“在談及NLP時(shí),Jie Wang向《每日經(jīng)濟(jì)新聞》記者介紹道。

在對(duì)NLP的主要任務(wù)有一個(gè)基本的理解之后,我們?cè)賮?lái)談?wù)凜hatGPT的技術(shù)原理。眾所周知的是,ChatGPT是一種聊天機(jī)器人產(chǎn)品,它基于OpenAI的大型語(yǔ)言模型架構(gòu)GPT-3.5。

2月15日,計(jì)算機(jī)科學(xué)家Stephen Wolfram在推特發(fā)表了一篇萬(wàn)字長(zhǎng)文來(lái)解釋ChatGPT的工作原理。在這篇文章中,Wolfram提到,ChatGPT的核心任務(wù)是對(duì)已有的文本生成一個(gè)“合理的延續(xù)”,“合理”的意思是,根據(jù)人類在數(shù)十億個(gè)網(wǎng)頁(yè)中撰寫(xiě)的內(nèi)容的規(guī)律,來(lái)推測(cè)接下來(lái)可能出現(xiàn)的內(nèi)容。

Wolfram舉了一個(gè)例子,比如輸入以下文本:“AI最好之處在于它()的能力”,為了補(bǔ)充括號(hào)中的內(nèi)容,ChatGPT會(huì)在數(shù)十億個(gè)網(wǎng)頁(yè)中查找類似文本,統(tǒng)計(jì)下一個(gè)單詞出現(xiàn)的概率。最終,ChatGPT會(huì)生成一個(gè)可能的單詞列表,并給出每個(gè)單詞的概率排名。這就是它的“概率游戲”。

圖片來(lái)源:文章截圖

脫穎而出的背后:創(chuàng)新訓(xùn)練方式、千億參數(shù)規(guī)模

實(shí)際上,ChatGPT并非第一個(gè)基于大型語(yǔ)言模型的產(chǎn)物。早在2018年,NLP領(lǐng)域演變出來(lái)的另一個(gè)基于大型語(yǔ)言模型的產(chǎn)物——BERT已經(jīng)出世,并一度被認(rèn)為在自然語(yǔ)言理解類任務(wù)中發(fā)揮得非常出色。那么,為什么相比之下,只有ChatGPT能夠引起如此大的轟動(dòng)呢?

首先在于GPT-3.5訓(xùn)練方式上的創(chuàng)新。

GPT-3.5的前身是GPT-3。據(jù)Jie Wang介紹,“GPT-3之前的大型語(yǔ)言模型,通常是通過(guò)在非常大的數(shù)據(jù)集上使用自我監(jiān)督學(xué)習(xí)的方式,來(lái)計(jì)算多個(gè)任務(wù)的單詞和句子之間的上下文關(guān)系,從而達(dá)到訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的目的。不過(guò),這樣一個(gè)經(jīng)過(guò)訓(xùn)練的模型仍然需要進(jìn)行微調(diào)(fine-tuning)來(lái)執(zhí)行特定任務(wù)。”

值得注意的是,BERT所使用的方式就是微調(diào)。這種方式的局限性就在于,“微調(diào)既費(fèi)時(shí)又費(fèi)錢(qián),”Jie Wang說(shuō)道,“通常需要特定的標(biāo)記數(shù)據(jù)集。”

當(dāng)GPT-3出現(xiàn)后,問(wèn)題得到了解決,這也是ChatGPT最具突破性的創(chuàng)舉的基礎(chǔ)。“GPT-3僅使用幾個(gè)特定的任務(wù)示例來(lái)簡(jiǎn)化微調(diào)的過(guò)程,這些任務(wù)示例被稱作‘few shots’(小樣本),”Jie Wang解釋道,“它產(chǎn)生的結(jié)果與最先進(jìn)的微調(diào)過(guò)程獲得的結(jié)果相同或相似,這項(xiàng)技術(shù)大大提高了生產(chǎn)率。GPT-3.5則進(jìn)一步使用用戶反饋來(lái)提高few shots生成結(jié)果的準(zhǔn)確性。”

也就是說(shuō),“(ChatGPT)主要的突破是GPT-3.5中使用的‘few-shots’結(jié)合用戶反饋的技術(shù),”Jie Wang向《每日經(jīng)濟(jì)新聞》記者總結(jié)道。

(編者注:few shots learning即小樣本學(xué)習(xí),在機(jī)器學(xué)習(xí)領(lǐng)域中泛指從少量標(biāo)注數(shù)據(jù)中學(xué)習(xí)的方法和場(chǎng)景。)

那么,如何來(lái)理解few shots呢?這里我們需要理解另一個(gè)概念——提示(prompting)。“提示是ChatGPT接受用戶反饋的形式,”Jie Wang說(shuō)道。

prompting實(shí)際上就是給模型一點(diǎn)小提示。舉一個(gè)非常簡(jiǎn)單的例子,當(dāng)每經(jīng)記者使用ChatGPT輔助新聞寫(xiě)作時(shí),需要ChatGPT對(duì)一段較長(zhǎng)的新聞進(jìn)行歸納總結(jié)或生成一個(gè)標(biāo)題。這時(shí),可以給ChatGPT一點(diǎn)小提示——例如,Mary是“《紐約時(shí)報(bào)》”一位“非常資深”的編輯,她需要幾個(gè)“吸睛的”標(biāo)題。

通過(guò)引號(hào)中三個(gè)關(guān)鍵詞的提示,相比于簡(jiǎn)單地要求“生成一個(gè)標(biāo)題”,這些小提示會(huì)讓ChatGPT生成的內(nèi)容得到明顯提升。

其次,ChatGPT的強(qiáng)大還在于其超大的參數(shù)規(guī)模。ChatGPT基于8000億個(gè)單詞的語(yǔ)料庫(kù)(或45TB的文本數(shù)據(jù)),包含了1750億個(gè)參數(shù)。8000億是ChatGPT的訓(xùn)練數(shù)據(jù),1750億是它從這些訓(xùn)練數(shù)據(jù)中所學(xué)習(xí)、沉淀下來(lái)的內(nèi)容。

“之前最大的模型也只是百億參數(shù),不是千億級(jí)別的,”Jie Wang說(shuō)道。公開(kāi)資料顯示,這種更大的參數(shù)規(guī)模允許ChatGPT能夠捕獲更復(fù)雜的語(yǔ)言模式和關(guān)系,從而提高復(fù)雜自然語(yǔ)言處理任務(wù)的準(zhǔn)確性。

據(jù)美國(guó)《時(shí)代周刊》上月中旬的報(bào)道,為了訓(xùn)練ChatGPT,OpenAI雇傭了時(shí)薪不到2美元的肯尼亞外包勞工,他們所負(fù)責(zé)的工作就是對(duì)龐大的數(shù)據(jù)庫(kù)手動(dòng)進(jìn)行數(shù)據(jù)標(biāo)注。報(bào)道中提到,OpenAI在2021年底與位于舊金山的外包公司Sama簽署了三份總價(jià)值約20萬(wàn)美元的合同,為其數(shù)據(jù)庫(kù)中的有害內(nèi)容進(jìn)行標(biāo)記。

圖片來(lái)源:每日經(jīng)濟(jì)新聞 劉雪梅 攝(資料圖)

商業(yè)落地:離通用AI還有多遠(yuǎn)?

ChatGPT已經(jīng)展現(xiàn)了在NLP領(lǐng)域的強(qiáng)大能力,那么,它是否可以從NLP領(lǐng)域走向其他AI領(lǐng)域呢?

Jie Wang認(rèn)為答案是肯定的。“在T5、GPT-3和GPT-3.5中發(fā)展起來(lái)的主要技術(shù),即自我監(jiān)督學(xué)習(xí)、few-shot微調(diào),以及結(jié)合用戶反饋的方式,當(dāng)然可以在其他AI領(lǐng)域進(jìn)一步修改和應(yīng)用,”他向《每日經(jīng)濟(jì)新聞》記者說(shuō)道。

看看BERT就知道了,雖然“出身”于NLP領(lǐng)域,但已經(jīng)廣泛應(yīng)用于其他AI領(lǐng)域。據(jù)Jie Wang介紹,BERT這類語(yǔ)言模型,基于遞歸神經(jīng)網(wǎng)絡(luò)(RNN)、雙向長(zhǎng)短期記憶(Bi-LSTM)等來(lái)計(jì)算捕獲潛在語(yǔ)義和句法信息的單詞和句子,這些神經(jīng)網(wǎng)絡(luò)構(gòu)建技術(shù)已廣泛應(yīng)用于圖像處理等其他領(lǐng)域。

科技研究和咨詢公司Gartner在近期發(fā)布的一篇報(bào)告中提及了ChatGPT的集中應(yīng)用方向,一是開(kāi)放API訪問(wèn)權(quán)限。據(jù)悉,微軟就計(jì)劃為即將推出的Azure OpenAI ChatGPT提供API;二是在銷售、營(yíng)銷、個(gè)性化教育以及個(gè)性化醫(yī)療保健領(lǐng)域得以應(yīng)用。

不過(guò),目前來(lái)看,ChatGPT廣泛的商業(yè)落地仍然還有一些難題。“我能看到的其中一個(gè)障礙是,ChatGPT提供的結(jié)果是不可信任的,”Jie Wang說(shuō)道。

OpenAI的首席執(zhí)行官Sam Altman此前也曾在推特上表示,ChatGPT還有很大的局限性,它在某些方面非常出色以至于給人一種誤導(dǎo)的印象。“現(xiàn)在依賴它來(lái)做任何事情都是錯(cuò)誤的,我們?cè)诜€(wěn)健性和準(zhǔn)確性上還有很多工作要做,”他這樣寫(xiě)道。

在許多人的幻想中,未來(lái)的某一天,會(huì)出現(xiàn)具備與人類同等智慧、或超越人類的AI,能表現(xiàn)正常人類所具有的所有智能行為,它能思考、能判斷,有思想、有倫理——這就是通用AI。ChatGPT能夠引起如此轟動(dòng)的原因也在于,有人認(rèn)為,它的出現(xiàn)似乎讓世界看到了通用AI的曙光。

人類已經(jīng)經(jīng)歷了數(shù)次超級(jí)工具的誕生,互聯(lián)網(wǎng)和智能手機(jī)的出現(xiàn)引發(fā)了科技革命,并且極大地改變了人們的思維和生活方式。在Jie Wang看來(lái),如果用ChatGPT來(lái)代表基于大型通用語(yǔ)言模型的應(yīng)用,那么ChatGPT有潛力成為下一個(gè)改變世界的超級(jí)工具。“我認(rèn)為它有可能改變?nèi)藗冮_(kāi)展業(yè)務(wù)的方式,”他說(shuō)道。

不過(guò),現(xiàn)實(shí)情況是,ChatGPT離通用AI的終點(diǎn),仍然還有一段很長(zhǎng)的路要走。

如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。

讀者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。

人工智能 ChatGPT

歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

每經(jīng)經(jīng)濟(jì)新聞官方APP

0

0

免费va国产高清不卡大片,笑看风云电视剧,亚洲黄色性爱在线观看,成人 在线 免费