每日經(jīng)濟(jì)新聞
要聞

每經(jīng)網(wǎng)首頁(yè) > 要聞 > 正文

從根本上改變語(yǔ)言模型!全新架構(gòu)TTT超越Transformer和Mamba,長(zhǎng)上下文中性能受限問(wèn)題或被徹底解決,12人研究團(tuán)隊(duì)中一半是華人

每日經(jīng)濟(jì)新聞 2024-07-10 13:07:41

◎ 斯坦福大學(xué)等高校以及Meta的學(xué)者提出了一種全新的大語(yǔ)言模型架構(gòu),有望代替至今在AI領(lǐng)域如日中天的Transformer,性能也比Mamba更好。

每經(jīng)記者 蔡鼎    每經(jīng)編輯 蘭素英    

從2017年Google Brain團(tuán)隊(duì)推出Transformer架構(gòu)逐步取代長(zhǎng)短期記憶(LSTM)等“循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)模型”成為首選模型,到后來(lái)首個(gè)線性時(shí)間序列架構(gòu)Mamba推出又對(duì)Transformer架構(gòu)構(gòu)成挑戰(zhàn),大語(yǔ)言模型底層架構(gòu)的迭代正在迅速改變?nèi)藗儗?duì)于AI的認(rèn)知和理解。

美東時(shí)間周一(7月8日),一種全新的大語(yǔ)言模型(LLM)架構(gòu)有望代替至今在AI領(lǐng)域如日中天的Transformer,性能也比Mamba更好。

圖片來(lái)源:arXiv

在預(yù)印本網(wǎng)站arXiv上發(fā)布的一篇論文中,斯坦福大學(xué)、加州大學(xué)伯克利分校、加州大學(xué)圣地亞哥分校和Meta的學(xué)者提出了一種全新架構(gòu),希望能用機(jī)器學(xué)習(xí)模型取代RNN的隱藏狀態(tài)。這個(gè)架構(gòu)通過(guò)對(duì)輸入token進(jìn)行梯度下降來(lái)壓縮上下文,被稱為“測(cè)試時(shí)間訓(xùn)練層(Test-Time-Training layers,簡(jiǎn)稱TTT層)”。“共同一作加州大學(xué)伯克利分校的Karen Dalal表示,我相信這將從根本上改變語(yǔ)言模型

但對(duì)于該論文,也有人提出質(zhì)疑,認(rèn)為只有30億~70億參數(shù)的可用演示模型才足以了解其實(shí)用性。

TTT-Linear 和 TTT-MLP 均能匹敵或擊敗Transformer和Mamba

過(guò)去這些年來(lái),對(duì)大模型的研究和理解都繞不開(kāi)“循環(huán)神經(jīng)網(wǎng)絡(luò)(下稱RNN)”。RNN是一種深度學(xué)習(xí)模型,由許多相互連接的組件組成,經(jīng)過(guò)訓(xùn)練后可以處理順序數(shù)據(jù)輸入并將其轉(zhuǎn)換為特定的順序數(shù)據(jù)輸出,例如將文本從一種語(yǔ)言翻譯成另一種語(yǔ)言。順序數(shù)據(jù)是指單詞、句子或時(shí)間序列數(shù)據(jù)之類的數(shù)據(jù),其中的順序分量根據(jù)復(fù)雜的語(yǔ)義和語(yǔ)法規(guī)則相互關(guān)聯(lián)。

而“隱藏狀態(tài)”是RNN模型中的一個(gè)關(guān)鍵概念。它可以看作是網(wǎng)絡(luò)在每個(gè)時(shí)間步驟上的“記憶”,存儲(chǔ)了之前時(shí)間步驟中的信息,并通過(guò)時(shí)間在不同步驟之間傳遞。隱藏狀態(tài)可以捕捉到序列中的長(zhǎng)期依賴性,從而使模型能夠理解整個(gè)序列的上下文。

在傳統(tǒng)的RNN中,隱藏狀態(tài)的固定大小表達(dá)能力受限,也不好并行訓(xùn)練。例如,像Mamba這樣的RNN層,會(huì)隨著時(shí)間的推移壓縮成一個(gè)固定大小的狀態(tài),它們雖然效率很高,但性能受限于其表達(dá)能力。

該論文團(tuán)隊(duì)的對(duì)TTT層的想法來(lái)自于:與其讓RNN隱藏狀態(tài)被動(dòng)地儲(chǔ)存信息,不如讓它主動(dòng)學(xué)習(xí)。作者們?cè)谡撐闹蟹Q,他們?cè)O(shè)計(jì)的“TTT層”突破了“RNN層”在長(zhǎng)上下文中性能受限的問(wèn)題。

他們?cè)?.25億~ 13億個(gè)參數(shù)規(guī)模的大模型上進(jìn)行一系列的對(duì)比后發(fā)現(xiàn),他們?cè)O(shè)計(jì)的TTT-Linear(線性模型)和TTT-MLP注:MLP為多層感知器,是一種基于前饋神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型均能匹敵或擊敗最強(qiáng)大的Transformers和 Mamba架構(gòu)方法。

論文稱,隱藏狀態(tài)時(shí)線性模型的TTT-Linear表現(xiàn)超過(guò)了Transformer和Mamba,用更少的算力達(dá)到更低的困惑度(下圖左),也能更好利用長(zhǎng)上下文(下圖右)。此外,隱藏狀態(tài)時(shí)MLP模型的TTT-MLP在32k長(zhǎng)上下文時(shí)表現(xiàn)還要更好。

圖片來(lái)源:arXiv

這不僅在理論上是線性的復(fù)雜度,而且實(shí)際運(yùn)行時(shí)間也更快。

圖片來(lái)源:arXiv

12人團(tuán)隊(duì)半數(shù)為華人,排首位的“共同一作”為斯坦福博士后

本篇論文一共有12名作者,有一半(6人)成員為華人。其中,排名第一的“一作”Yu Sun博士畢業(yè)于加州大學(xué)伯克利分校電氣工程與計(jì)算機(jī)科學(xué)系,目前是斯坦福大學(xué)的博士后,研究重點(diǎn)便是TTT的算法架構(gòu)。排在第二位的“一作”Xinhao Li為加州大學(xué)圣地亞哥分校研二學(xué)生,其研究集中在深度學(xué)習(xí)和計(jì)算機(jī)視覺(jué),“三作”之一的Xiaolong Wang為其導(dǎo)師。

Yu Sun 圖片來(lái)源:個(gè)人主頁(yè)

論文稱,Yu Sun于2022年11月便開(kāi)始和Xinhao Li做這個(gè)項(xiàng)目,2023年6月份開(kāi)始進(jìn)入全職工作狀態(tài)。Yu Sun提出了項(xiàng)目的概念框架,設(shè)計(jì)了小批量的TTT層和“雙重形式”,在他人的幫助下撰寫(xiě)了論文,并領(lǐng)導(dǎo)了整個(gè)團(tuán)隊(duì)的日常運(yùn)作和實(shí)驗(yàn)。

該研究“一作”之一 、加州大學(xué)伯克利分校信息工程學(xué)系學(xué)生Karen Dalal在X上表示,他相信這將從根本上改變語(yǔ)言模型。他稱,“我們?cè)O(shè)計(jì)了一個(gè)新的架構(gòu),用機(jī)器學(xué)習(xí)模型取代了RNN的隱藏狀態(tài)。該模型通過(guò)輸入標(biāo)記的實(shí)際梯度下降來(lái)壓縮上下文。我們將我們的方法稱為‘測(cè)試時(shí)間訓(xùn)練層’。TTT層通過(guò)表達(dá)性記憶解鎖了線性復(fù)雜性架構(gòu),使我們能夠在上下文中用數(shù)百萬(wàn)(有朝一日甚至數(shù)十億)個(gè)token來(lái)訓(xùn)練大語(yǔ)言模型。”

圖片來(lái)源:X

Karen Dalal還稱,“TTT-Linear已經(jīng)比最快的SSM(注:指‘狀態(tài)空間模型’)更快,并且在大小和上下文方面具有很強(qiáng)的可擴(kuò)展性。這個(gè)架構(gòu)內(nèi)的探索空間是巨大的,我們的論文只是邁出了一小步。

圖片來(lái)源:X

該論文的“三作”之一、加州大學(xué)伯克利分校博士后,現(xiàn)加州大學(xué)圣地亞哥分校電氣與計(jì)算機(jī)工程助理教授Xiaolong Wang則在X上激動(dòng)地稱:“我真不敢相信這終于發(fā)生了。”

“TTT層理念是我們已經(jīng)研究了5年的架構(gòu)……今天的TTT和我剛開(kāi)始做博士后研究的時(shí)候已經(jīng)完全不同了,它已經(jīng)是一個(gè)網(wǎng)絡(luò)層,用機(jī)器學(xué)習(xí)模型取代了RNN的隱藏狀態(tài)。我們的TTT層并不是使用特定的向量來(lái)表達(dá)記憶,而是維護(hù)一個(gè)小型神經(jīng)網(wǎng)絡(luò)來(lái)壓縮輸入標(biāo)記……這種架構(gòu)目前應(yīng)用于語(yǔ)言建模,但想象一下將其應(yīng)用于視頻。未來(lái),在長(zhǎng)視頻建模時(shí),我們可以對(duì)幀進(jìn)行密集采樣,而不是以1 FPS的速度采樣,這些密集的幀對(duì)Transformer架構(gòu)來(lái)說(shuō)是負(fù)擔(dān),但對(duì)TTT層來(lái)說(shuō)卻是福音。因?yàn)樗鼈儽举|(zhì)上只是在TTT內(nèi)訓(xùn)練更好網(wǎng)絡(luò)的‘時(shí)間增強(qiáng)’。

圖片來(lái)源:X

《每日經(jīng)濟(jì)新聞》記者注意到,在Xiaolong Wang的推文下方,也有不少質(zhì)疑者,例如,一個(gè)名為John Bollenbacher的用戶稱,“這是一個(gè)有希望的跡象,但我認(rèn)為我需要看到2.5個(gè)以上的示例才能認(rèn)真對(duì)待。而一個(gè)30億~70億參數(shù)的可用演示模型才可以讓我們了解它的實(shí)用性。”

對(duì)此,Xiaolong Wang回復(fù)稱,“(我們正)朝著那個(gè)方向努力。我希望通過(guò)這個(gè)版本我們可以得到更多的計(jì)算……就目前而言,學(xué)術(shù)實(shí)驗(yàn)室仍然很難訓(xùn)練70億參數(shù)的模型。

圖片來(lái)源:X

如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。

讀者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。

大模型 Ai 研究

歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

每經(jīng)經(jīng)濟(jì)新聞官方APP

1

0

免费va国产高清不卡大片,笑看风云电视剧,亚洲黄色性爱在线观看,成人 在线 免费