每日經(jīng)濟(jì)新聞 2023-03-21 22:25:18
每經(jīng)特約評論員 盤和林
2022年11月,OpenAI發(fā)布了ChatGPT,繼而在短短2個月時間就獲得了上億用戶。ChatGPT背后是2021年OpenAI發(fā)布的GPT3.0技術(shù),由于在GPT3.0技術(shù)上作了一些優(yōu)化,所以ChatGPT又被認(rèn)為是GPT3.5版本,而在今年3月14日,OpenAI又發(fā)布了GPT4.0,并將其作為plus訂閱服務(wù)發(fā)布,新版本再次掀起熱潮,訂閱支付通道一度擁堵癱瘓。
ChatGPT一次又一次掀起熱潮,是因為它突破了人工智能應(yīng)用的一些瓶頸,未來以生成式AI為代表的人工智能產(chǎn)業(yè)將進(jìn)入全面爆發(fā)階段。面對科技的新一輪爆發(fā),中國企業(yè)作好準(zhǔn)備了嗎?
數(shù)據(jù)來源: OpenAI官網(wǎng),World of Engineering,中泰證券研究所
GPT帶來了什么?
ChatGPT是生成式AI,其通過機(jī)器學(xué)習(xí)來訓(xùn)練AI,用上一個字生成下一個字,再用下一個字生成下下個字。首先,ChatGPT采用非監(jiān)督式學(xué)習(xí),用海量語料來教會AI說話方式。隨后,ChatGPT用監(jiān)督式學(xué)習(xí)來輔助矯正語言規(guī)范,通過標(biāo)注語料進(jìn)行機(jī)器訓(xùn)練,讓ChatGPT知道面對某個問題應(yīng)該如何生成回答。最后,當(dāng)ChatGPT能夠回答問題,逐字生成答案的時候,再用強(qiáng)化學(xué)習(xí)來給ChatGPT的回答打分。簡單說,通過填鴨式的非監(jiān)督學(xué)習(xí),ChatGPT學(xué)會了說句子,通過范例的、預(yù)標(biāo)注的預(yù)料進(jìn)行監(jiān)督式學(xué)習(xí),ChatGPT學(xué)會了回答問題,再通過強(qiáng)化學(xué)習(xí)來了解人類的“回答偏好”,多給高評分的答案。
為什么ChatGPT需求爆發(fā),而其他AI沒有。總結(jié)看,ChatGPT有幾個獨到之處:
其一,ChatGPT是大模型。監(jiān)督式、非監(jiān)督式、強(qiáng)化學(xué)習(xí)的原理,在AI產(chǎn)業(yè)里早已是常識性的技術(shù)認(rèn)知。但自然語言處理這個領(lǐng)域太過復(fù)雜,因為人類說話非常隨機(jī),所以之前AI企業(yè)將機(jī)器學(xué)習(xí)用在很多領(lǐng)域,語音識別、機(jī)器視覺、圖像識別(人臉、醫(yī)學(xué)影像)、蛋白質(zhì)特征預(yù)測、文本識別等,但很少將機(jī)器學(xué)習(xí)用在自然語言處理上。念頭往往一閃而過,但付諸實施的往往是少數(shù),而OpenAI耐著性子堅持了下來。
其二,ChatGPT是機(jī)器學(xué)習(xí),不是數(shù)據(jù)庫。長期以來,AI領(lǐng)域人士認(rèn)為機(jī)器學(xué)習(xí)不適合自然語言處理,所以一直以來,自然語言處理采用邏輯推理的AI實現(xiàn)方式。建立一個語料數(shù)據(jù)庫,在語料數(shù)據(jù)之間建立關(guān)聯(lián)性,比如知識圖譜,再通過邏輯搜索的方式,從數(shù)據(jù)庫中找到對應(yīng)答案。但ChatGPT并沒有數(shù)據(jù)庫,ChatGPT采用機(jī)器學(xué)習(xí),是一種AI能力集成,而不是一個數(shù)據(jù)庫集成。也正因為ChatGPT的這個屬性,它并不局限在文本對答方面,而是能夠進(jìn)入任何領(lǐng)域,比如和搜索結(jié)合、和辦公軟件結(jié)合。當(dāng)前尤其善于處理文本,比如編程和學(xué)術(shù)教育領(lǐng)域,ChatGPT的功能幾乎是通用的。ChatGPT具備完善的表達(dá)能力,且通過對不同領(lǐng)域內(nèi)容的學(xué)習(xí),ChatGPT最終會變得無所不能。而這些在數(shù)據(jù)庫和邏輯搜索下是無法實現(xiàn)的。
其三,ChatGPT有強(qiáng)大的上下文語義理解能力。用戶可以讓ChatGPT扮演角色,ChatGPT可以在用戶引導(dǎo)下故意給出“符合用戶要求”的錯誤答案。用戶在提問的時候,ChatGPT也會引導(dǎo)用戶補(bǔ)充問題信息,并最終給出符合邏輯的答案。過去我們遇到的AI聊天軟件有兩種:一種是基于數(shù)據(jù)庫的,必須按照數(shù)據(jù)庫給定的提問方式;另一種是基于機(jī)器學(xué)習(xí),但只是一問一答。結(jié)合上下文語義理解的ChatGPT能夠更好地找到用戶的需求點,給出適合用戶需求的答案。
綜上,ChatGPT的強(qiáng)大在于,其本身是一種機(jī)器能力,而不是數(shù)據(jù)庫,ChatGPT自身的語義理解能力、語言組織能力、搜索能力才是其本質(zhì),這也使得ChatGPT可以套用在任何領(lǐng)域。而對于人類來說,ChatGPT是提升人類認(rèn)知水平的一個重要工具。
人類之所以區(qū)別于其他動物,關(guān)鍵點在于人類的知識是可以傳承的,這使得人類通過知識傳承積累來實現(xiàn)發(fā)展。到工業(yè)革命前期,古登堡印刷機(jī)成為科技進(jìn)步的催化劑,除了代代相傳的知識積累,人類擁有了新的知識積累工具,打破認(rèn)知局限性,所謂“好記性不如爛筆頭”,有了紙張就可以將知識記錄下來,從而加快積累速度。再后來,信息時代出現(xiàn)互聯(lián)網(wǎng),紙張逐漸被數(shù)據(jù)存儲器取代,信息時代是“數(shù)據(jù)要素”驅(qū)動的時代,數(shù)據(jù)里包含信息和知識,海量信息和知識存儲在互聯(lián)網(wǎng)上,人類通過搜索便捷獲取,知識的堆積再一次提升人類認(rèn)知水平。
那么ChatGPT呢?互聯(lián)網(wǎng)持續(xù)繁榮,人類面臨的難題已經(jīng)不再是信息、知識獲取,與此相反,人類現(xiàn)在處在信息過載、莫衷一是的狀態(tài)。所以互聯(lián)網(wǎng)時代,最為重要的一種能力是“搜索力”,是如何通過算法和搜索在浩如煙海的互聯(lián)網(wǎng)信息中找到答案的問題。ChatGPT提升了人類的搜索力。當(dāng)ChatGPT嫁接到搜索引擎之后,它就能從海量信息中迅速找到你要的信息。比如你是程序員,ChatGPT可以以自身能力組織出一段代碼,也許這段代碼的很多段落零散分布在各類網(wǎng)站上,ChatGPT減少了你瀏覽各類網(wǎng)站找代碼范例的時間。同樣的情況,也可以發(fā)生在PPT制作、論文書寫、考試答題上。
當(dāng)然ChatGPT并不局限于搜索力,它不僅能找到知識點,還能通過自己的語言能力表達(dá)出來。比如和辦公軟件結(jié)合,你有一組數(shù)據(jù),想做一個PPT,有了ChatGPT,就可以直接生成若干方案。
綜上,ChatGPT對于人類是一種能力加持,一種能夠大幅度提高人類生產(chǎn)力的工具性能力。
當(dāng)前面臨兩個難題
如果ChatGPT是一種生產(chǎn)力提升工具,那么拒絕生產(chǎn)力工具是不明智的,中國需要生產(chǎn)力工具。人類社會的每一次科技進(jìn)步,最終結(jié)果都是人類去適應(yīng)科技。在工業(yè)時代,少部分國家采用閉關(guān)鎖國的方式來對抗科技進(jìn)步,但都以失敗告終。所以對于中國,ChatGPT是需要的。但圍繞ChatGPT,依然存在幾個問題:
問題一:自力更生等待國產(chǎn)ChatGPT,還是引進(jìn)ChatGPT?
現(xiàn)階段直接引進(jìn)ChatGPT存在制度上的障礙,因為ChatGPT是生成式AI,它背后不是數(shù)據(jù)庫,它會隨機(jī)生成答案,而有些隨機(jī)生成內(nèi)容是違規(guī)的,比如被別有用心的用戶引導(dǎo)給出了“恐怖主義”言論。當(dāng)然,ChatGPT也是可以調(diào)教的,前面說過,生成式AI可以通過范例的預(yù)標(biāo)注詞條進(jìn)行監(jiān)督式學(xué)習(xí),也可以通過評分來規(guī)范回答,但ChatGPT的母公司OpenAI畢竟是美國公司,美國和中國存在很大的文化差異,這些文化差異會讓ChatGPT在中國出現(xiàn)水土不服甚至犯法。
但反過來說,國內(nèi)如今缺少ChatGPT的對標(biāo)產(chǎn)品。比如百度文心一言,在中文內(nèi)容應(yīng)答方面和ChatGPT不相上下,但如果你將場景切換到編程代碼,兩者就有很大差距。換句話說,對生產(chǎn)力支持方面,百度文心一言有欠缺。故而,如果你不讓ChatGPT進(jìn)來,那么就沒辦法短期內(nèi)提高生產(chǎn)力。而你要ChatGPT進(jìn)來,則需要適配規(guī)則,以提高對生成式AI內(nèi)容的包容性。
進(jìn)一步可以演化為兩個選項:一個選項是通過特別規(guī)則來引進(jìn)ChatGPT,人工智能不具備主觀惡意,回答是“有口無心”,可以給予適度包容,讓ChatGPT和國內(nèi)各個領(lǐng)域迅速結(jié)合,提升生產(chǎn)力水平。當(dāng)然,也要對教育等領(lǐng)域進(jìn)行改革,以適應(yīng)ChatGPT帶來的改變。另一個選項是先拒絕ChatGPT,等待未來國產(chǎn)ChatGPT的平替產(chǎn)品。OpenAI成立至今不到10年,卻已有如此成就,ChatGPT的形成原理并不深奧,關(guān)鍵還是要大量資金、人才、時間去燒出一個技術(shù)未來,需要排除萬難持續(xù)投入,通過“你追我趕”,預(yù)期未來5年內(nèi)必然出現(xiàn)類ChatGPT的國產(chǎn)平替產(chǎn)品。
問題二:中國科技企業(yè)在研發(fā)類ChatGPT過程中的瓶頸在哪里?
在生成式AI領(lǐng)域,中國科技企業(yè)缺兩樣?xùn)|西:一個是心,是耐心和信心;另一個是芯,是算力芯片。
為什么說缺耐心和信心?
耐心方面,不只是中國企業(yè)缺,實際上在OpenAI推出ChatGPT之前,美國硅谷科技巨頭也缺耐心,比如一直標(biāo)榜人工智能領(lǐng)頭羊的谷歌倉促應(yīng)戰(zhàn),結(jié)果產(chǎn)品體驗并不能達(dá)到用戶預(yù)期,結(jié)果谷歌股價暴跌。最近幾十年,機(jī)器學(xué)習(xí)是人工智能領(lǐng)域的顯學(xué),尤其是深度學(xué)習(xí)等算法,但之前大多數(shù)科技企業(yè)都因為生成式AI投入周期長,成本高而忽視了這條路線。企業(yè)的本質(zhì)是盈利組織,會考慮成本效益問題。而OpenAI比較特殊,他之前是非盈利性組織,后來微軟入主,轉(zhuǎn)變?yōu)橛邢抻M織,微軟只負(fù)責(zé)給錢,不干預(yù)研發(fā),OpenAI從從容容地在幾年內(nèi)燒掉超過40億美元的資金,未來還要燒掉百億美元資金進(jìn)行優(yōu)化。
OpenAI在一個細(xì)分領(lǐng)域投入如此集中,周期如此之長,且在之前并沒有體現(xiàn)出應(yīng)用價值,而ChatGPT的能力一旦表現(xiàn)出來,尤其是其對接更多應(yīng)用的接口能力。便出現(xiàn)“十年寒窗無人聞,一朝成名天下知”的狀況。當(dāng)前聚攏到生成式AI的科技公司,無一例外都需要再走一遍OpenAI走過的路,所以耐心是必需的。比過去更好的地方在于,我們已經(jīng)看到生成式AI的前景,當(dāng)前這個領(lǐng)域不乏資本支持。
耐心之外,還有信心。導(dǎo)致中國科技企業(yè)信心不足的原因如下:
其一,很多AI領(lǐng)域的從業(yè)者認(rèn)為:當(dāng)前中文互聯(lián)網(wǎng)存在高質(zhì)量語料不足的問題。這個問題的成因很復(fù)雜,換個角度看,中國需要在高質(zhì)量語料數(shù)據(jù)上投入更大成本。
其二,很多AI領(lǐng)域的從業(yè)者擔(dān)心合規(guī)性問題。和ChatGPT引進(jìn)的問題類似,誰都擔(dān)心自己辛苦開發(fā)的成果不能應(yīng)用。但這里并非無“技”可施。監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)本身會規(guī)范生成式AI的生成,法規(guī)只需要對少數(shù)情況給予適度包容即可。比如,對用戶惡意引導(dǎo)AI“非法回答”的情況,要明確是用戶的責(zé)任。
其三,很多AI領(lǐng)域的從業(yè)者擔(dān)心算力受制于人。之前英特爾就A100顯卡曾有過對華禁售,而ChatGPT成功的背后是微軟為其部署的超過3萬張的A100顯卡,智算中心算力需求和數(shù)據(jù)中心并不相同,其核心主要還是在GPU芯片上,我國在高端芯片上的瓶頸會限制中國生成式AI的發(fā)展。
綜上,中國“類ChatGPT”產(chǎn)品需要算力、數(shù)據(jù)上的支持,也需要制度、法規(guī)上的支持,面對科技革命,我們依然要落地到軟環(huán)境和硬環(huán)境兩方面,軟環(huán)境就是合規(guī)性和產(chǎn)權(quán)規(guī)則,只有明確制度規(guī)范才能讓企業(yè)有信心加大投入。硬環(huán)境就是硬件設(shè)施,就是算力和數(shù)據(jù)上的支持。
生成式AI的時代已經(jīng)到來,AI從玩具轉(zhuǎn)變?yōu)楣ぞ?。由于ChatGPT經(jīng)歷過用戶使用驗證,所以生成式AI必然不是一陣風(fēng)的熱點概念,而是長期的、重要的科技高地,其產(chǎn)生意義可能類似于互聯(lián)網(wǎng),是改變?nèi)祟惿a(chǎn)力水平的關(guān)鍵應(yīng)用。面對如此大的科技變革,中國需要抓緊轉(zhuǎn)向去適應(yīng)科技的變化,將科技轉(zhuǎn)化為生產(chǎn)力,為我所用。與此同時,我們也要不忘初心,牢牢抓住“自力更生”這一點,提升我國在這一領(lǐng)域的技術(shù)自主能力。我們需要對生成式AI發(fā)展保持耐心,因為這是一個長周期的投入過程,生成式AI不能一蹴而就,當(dāng)前要做的,是優(yōu)化好環(huán)境生態(tài),一步一個腳印,推動生成式AI產(chǎn)業(yè)發(fā)展。
(作者系浙江大學(xué)國際聯(lián)合商學(xué)院數(shù)字經(jīng)濟(jì)與金融創(chuàng)新研究中心聯(lián)席主任、研究員,工信部信息通信經(jīng)濟(jì)專家委員會委員)
封面圖片來源:新華社
如需轉(zhuǎn)載請與《每日經(jīng)濟(jì)新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP