每日經(jīng)濟(jì)新聞 2023-03-16 22:43:04
每經(jīng)編輯 蒙錦濤
一闕《青玉案·元夕》,辛棄疾用時(shí)間制造了順理成章的浪漫。八百多年后,由詞化名的科技公司百度,用大語言模型開啟了“生成式AI”時(shí)代。通過文心一言,“眾里尋他”只需要幾秒鐘的時(shí)間。
3月16日,百度召開新聞發(fā)布會(huì)。從百度創(chuàng)始人、董事長兼首席執(zhí)行官李彥宏現(xiàn)場(chǎng)演示的demo效果上看,文心一言具備文學(xué)創(chuàng)作、商業(yè)文案創(chuàng)作、數(shù)理推算等大語言模型較常見的優(yōu)勢(shì)和能力,還在中文理解、多模態(tài)生成能力上更具特色。
不過,文心一言、ChatGPT背后的技術(shù)邏輯,與通過海量無標(biāo)注數(shù)據(jù)訓(xùn)練的大模型之間差異鮮明,即需要人的參與。整體而言,這類大語言模型還未到發(fā)展完善的階段,部分場(chǎng)景足夠驚艷,但一些場(chǎng)景下也有bug出現(xiàn),存在很大進(jìn)步空間。
人類向往科技,是期待它更好地理解人類意圖,生成符合人類價(jià)值觀、表達(dá)習(xí)慣的回復(fù)。這一點(diǎn)上,唯有真實(shí)的體驗(yàn)才能帶給用戶驚喜。從技術(shù)發(fā)展趨勢(shì)上,大語言模型和生成式AI成為新的技術(shù)范式已毋庸置疑,百度方面透露,已有超650家合作伙伴宣布加入生態(tài),如李彥宏所說,AI的長期價(jià)值,對(duì)千行百業(yè)的顛覆性改變,才剛剛開始。
“十年分娩,一朝懷胎”
今起開放首批測(cè)試
ChatGPT出現(xiàn)后,一向走在創(chuàng)新路上的百度立刻官宣了對(duì)標(biāo)產(chǎn)品文心一言??此仆蝗?,但李彥宏介紹,百度在過去十幾年間一直在AI研發(fā)上持續(xù)投入,文心大模型的第一個(gè)版本在2019年就發(fā)布了,此后每一年都要發(fā)布一個(gè)新的版本。
最新的版本在新聞發(fā)布會(huì)現(xiàn)場(chǎng)亮相,李彥宏與文心一言在5個(gè)場(chǎng)景展開了問答互動(dòng)。
在文學(xué)創(chuàng)作場(chǎng)景中,文心一言根據(jù)對(duì)話問題將知名科幻小說《三體》的核心內(nèi)容進(jìn)行了總結(jié),并提出了五個(gè)續(xù)寫《三體》的建議角度,體現(xiàn)出對(duì)話問答、總結(jié)分析、內(nèi)容創(chuàng)作生成的綜合能力。面對(duì)《三體》電視劇演員于和偉和張魯一“有哪些共同點(diǎn)”“誰更高”這類問題,文心一言也基于推理能力得出了準(zhǔn)確答案。
除了文學(xué)創(chuàng)作,商業(yè)文案也是用戶使用較為廣泛的場(chǎng)景。在這一創(chuàng)作場(chǎng)景中,李彥宏對(duì)文心一言下達(dá)了“如果要成立一個(gè)用大模型服務(wù)中小企業(yè)數(shù)字化升級(jí)的科技服務(wù)公司,可以起個(gè)什么公司名”“數(shù)智云圖這個(gè)名稱不錯(cuò),給我起一個(gè)公司的服務(wù)Slogan,表達(dá)共贏的概念”“幫我生成一篇公司成立的新聞稿,數(shù)智云圖以共贏的服務(wù)理念用大模型服務(wù)中小企業(yè)數(shù)字化升級(jí),字?jǐn)?shù)600字”等指令。
搜索業(yè)務(wù)的基因是文心一言的基石。
李彥宏介紹,文心一言大模型的訓(xùn)練數(shù)據(jù)包括萬億級(jí)網(wǎng)頁數(shù)據(jù),數(shù)十億搜索數(shù)據(jù)和圖片數(shù)據(jù),百億級(jí)語音日均調(diào)用數(shù)據(jù),及5500億事實(shí)的知識(shí)圖譜,是數(shù)據(jù)規(guī)模發(fā)生的“智能涌現(xiàn)”。而在百度搜索中,問答和生成類的搜索請(qǐng)求占比極高,因此文心一言在自然語言問答和創(chuàng)意內(nèi)容的生成上有相對(duì)突出的表現(xiàn)。
值得關(guān)注的是,過去的幾個(gè)月,讓AI自行展開創(chuàng)作,“一本正經(jīng)地胡說八道”是用戶最頭疼的問題。在這方面,文心一言表現(xiàn)如何?根據(jù)李彥宏的介紹,為減少錯(cuò)誤率,百度對(duì)文心一言做了知識(shí)增強(qiáng)和檢索增強(qiáng),大幅度提升了事實(shí)性問題的準(zhǔn)確率。
此外,李彥宏介紹,文心一言具備一定的思維能力,能夠?qū)W會(huì)數(shù)學(xué)推演及邏輯推理等相對(duì)復(fù)雜任務(wù)。面對(duì)“雞兔同籠”這類鍛煉人類邏輯思維的經(jīng)典題,文心一言能理解題意,并有正確的解題思路,進(jìn)而像學(xué)生做題一樣,按正確的步驟,一步步算出正確答案。
不過,李彥宏也直言,現(xiàn)階段文心一言的準(zhǔn)確率還不是100%,需要更多的時(shí)間學(xué)習(xí)和成長。
發(fā)布產(chǎn)品細(xì)則的同時(shí),百度也公布了文心一言的邀請(qǐng)測(cè)試方案:3月16日起首批用戶即可通過邀請(qǐng)測(cè)試碼,在文心一言官網(wǎng)嘗鮮。企業(yè)方面,百度智能云企業(yè)客戶也可開始預(yù)約申請(qǐng)加入文心一言云服務(wù)測(cè)試。
根植本土文化
支持多模態(tài)拓展
文學(xué)創(chuàng)作、商業(yè)文案寫作、數(shù)理邏輯推算是大語言模型相對(duì)常見的優(yōu)勢(shì)和能力。被李彥宏稱為“十年分娩,一朝懷胎”的文心一言,還有哪些特殊之處?
首先,作為扎根于中國市場(chǎng)的大語言模型,文心一言具備中文領(lǐng)域極先進(jìn)的自然語言處理能力,在中文語言和中國文化上有較好的表現(xiàn)。
為展示文心一言的中文表達(dá)能力,李彥宏現(xiàn)場(chǎng)就“洛陽紙貴”的典故輸入了以下問題:洛陽紙貴是什么意思?當(dāng)時(shí)洛陽的紙到底有多貴?這個(gè)成語在現(xiàn)在的經(jīng)濟(jì)學(xué)原理里,對(duì)應(yīng)的理論是什么?用洛陽紙貴四個(gè)字寫一首藏頭詩。
文心一言所作藏頭詩如下:“洛陽城里春光好,陽艷無雙不負(fù)賞。紙貴漫天詩詞賦,貴比黃金樂未央?!毙懔艘徊ㄖ形膬?yōu)勢(shì)后,李彥宏也直截了當(dāng)?shù)乇硎?,目前文心一言?duì)英文語種、代碼場(chǎng)景的訓(xùn)練還不夠多,表現(xiàn)還不夠好,未來會(huì)加緊訓(xùn)練,完善上述能力。
值得一提的是,對(duì)于生成式AI,用戶還有一個(gè)期待,即多模態(tài)生成。李彥宏也強(qiáng)調(diào),多模態(tài)是生成式AI一個(gè)明確的發(fā)展趨勢(shì)。
從現(xiàn)場(chǎng)展示來看,文心一言具備生成文本、圖片、音頻和視頻的能力。
有趣的是,文心一言還能生成四川話等方言語音。據(jù)李彥宏透露,每日有幾萬篇文章正通過該能力轉(zhuǎn)成視頻內(nèi)容并在百度分發(fā)。不過,受成本限制,現(xiàn)階段視頻生成功能還未對(duì)全部用戶開放。在李彥宏的設(shè)想里,通過定向微調(diào),文心一言將在百度內(nèi)外部各類產(chǎn)品上逐步展示出親和力,拉近產(chǎn)品和用戶的距離。
回應(yīng)市場(chǎng)需求
在反饋中迭代進(jìn)步
從宣布存在到此次上線,百度用了一個(gè)月時(shí)間。
最近一段時(shí)間,李彥宏接到最多的提問是:“你們真的ready了嗎?”對(duì)此,李彥宏直言:“也不能說完全ready了,畢竟文心一言對(duì)標(biāo)的是ChatGPT甚至是CGT-4,門檻還是很高的。無論哪家公司,都不可能靠突擊幾個(gè)月就做出這樣的大語言模型。深度學(xué)習(xí)、自然語言處理,需要多年的堅(jiān)持和積累,沒法速成。”
截至目前,盡管官宣推進(jìn)此類產(chǎn)品的企業(yè)不少,但在國內(nèi),百度是第一個(gè)“吃螃蟹的人”。從內(nèi)在因素上看,文心一言是百度過去多年努力成果的延續(xù)。自從進(jìn)入人工智能時(shí)代,IT技術(shù)的技術(shù)棧發(fā)生了根本性變化,從過去三層到“芯片-框架-模型-應(yīng)用”四層,百度是為數(shù)不多、在四層進(jìn)行全棧布局的人工智能公司。
而文心一言,就是百度在ERNIE及PLATO系列模型的基礎(chǔ)上所研發(fā),其關(guān)鍵技術(shù)包括監(jiān)督精調(diào)、人類反饋的強(qiáng)化學(xué)習(xí)、提示、知識(shí)增強(qiáng)、檢索增強(qiáng)和對(duì)話增強(qiáng)。其中前三項(xiàng)為大語言模型普遍采用技術(shù),后三項(xiàng)則是百度已有技術(shù)優(yōu)勢(shì)的再創(chuàng)新。
萬眾矚目下交出成品,百度也沒有避諱問題。在應(yīng)對(duì)媒體采訪時(shí),李彥宏多次提到,自己在測(cè)試的過程中感覺到,(文心一言)還有很多不完美的地方。選擇在此時(shí)推出,是因?yàn)槭袌?chǎng)有龐大的需求。
“百度的很多產(chǎn)品,從搜索到智能云、自動(dòng)駕駛,再到小度,都是在市場(chǎng)需求下誕生的。從我們承認(rèn)文心一言的存在到今日上線,一個(gè)月的時(shí)間里已有超過650家合作伙伴宣布加入文心一言生態(tài),大家都希望能早一點(diǎn)用上先進(jìn)的大語言模型?!?/span>
在李彥宏看來,上線意味著大量的用戶反饋,將加速文心一言的迭代速度,通過真實(shí)、及時(shí)的反饋倒逼大模型、深度學(xué)習(xí)框架和芯片的優(yōu)化,給用戶“士別三日,當(dāng)刮目相看”的驚喜。
綜合文心一言的整體表現(xiàn),從某種程度上看它確實(shí)具有對(duì)人類意圖的理解能力,回答的準(zhǔn)確性、邏輯性、流暢性,都逐漸接近人類水平。但文心一言與ChatGPT背后,實(shí)際都是SFT(模型微調(diào))、RLHF(強(qiáng)化學(xué)習(xí))、Prompt(真實(shí)的用戶指令)等技術(shù)邏輯,這些方法與通過海量無標(biāo)注數(shù)據(jù)訓(xùn)練的大模型有明顯差距,需要人的參與。
目前來看,這類大語言模型還未到發(fā)展完善的階段,部分場(chǎng)景足夠驚艷,但一些場(chǎng)景下也還有bug,存在很大的進(jìn)步空間。人類向往科技,是期待它能更好地理解人類意圖,生成符合人類價(jià)值觀、表達(dá)習(xí)慣的回復(fù)。這一點(diǎn)上,唯有真實(shí)的體驗(yàn)才能帶給用戶驚喜。
編輯|蒙錦濤
如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP