每日經(jīng)濟(jì)新聞

要聞

每經(jīng)網(wǎng)首頁 > 要聞 > 正文

OpenAI發(fā)布最新技術(shù)研究，AI“黑盒”不再是難題！

每日經(jīng)濟(jì)新聞 2024-07-18 07:36:45

每經(jīng)編輯杜宇

7月18日凌晨，OpenAI在官網(wǎng)發(fā)布了最新技術(shù)研究——Prover-Verifier-Games。

隨著ChatGPT在法律、金融、營銷等領(lǐng)域的廣泛使用，確保模型的安全、準(zhǔn)確輸出同時被很好理解變得非常重要。但由于神經(jīng)網(wǎng)絡(luò)的復(fù)雜和多變性，我們根本無法驗(yàn)證其生成內(nèi)容的準(zhǔn)確性，這也就會出現(xiàn)輸出“黑盒”的情況。

為了解決這個難題，OpenAI提出了全新訓(xùn)練框架Prover-Verifier Games（簡稱“PVG”），例如，用GPT-3這樣的小模型來驗(yàn)證、監(jiān)督，GPT-4大模型的輸出，從而提升輸出準(zhǔn)確率以及可控性。

PVG技術(shù)概念早在2021年8月的一篇論文中就被提出來，OpenAI也正是受此靈感啟發(fā)。這是一種基于博弈論的訓(xùn)練方法，通過模擬證明者和驗(yàn)證者之間的互動，提高模型的輸出質(zhì)量。

在這個機(jī)制中，Prover（證明者）的任務(wù)就是生成內(nèi)容，而Verifier（驗(yàn)證者）的任務(wù)就是判斷這些內(nèi)容是否正確。

這樣做的目的是讓驗(yàn)證者學(xué)會如何從大量的內(nèi)容中識別出正確的答案。在驗(yàn)證的過程中，證明者和驗(yàn)證者的角色是相互依賴的。證明者需要生成能夠說服驗(yàn)證者的內(nèi)容，而驗(yàn)證者則需要具備足夠的判斷力來識別出正確的內(nèi)容。

在訓(xùn)練PVG時，每輪訓(xùn)練都包括驗(yàn)證者和證明者的優(yōu)化。在每一輪中，驗(yàn)證者首先使用監(jiān)督學(xué)習(xí)來預(yù)測內(nèi)容的正確性，幫助驗(yàn)證者學(xué)會如何從大量的內(nèi)容中識別出正確的答案。使證明者通過強(qiáng)化學(xué)習(xí)來優(yōu)化其生成的內(nèi)容。

例如，當(dāng)用戶提出問題“肖娜的父親的年齡是肖娜的5倍。肖娜目前的年齡是阿莉亞的3倍。如果阿莉亞3歲，肖娜的父親有多大？”

GPT-4的輸出為45歲。

而驗(yàn)證者模型GPT-3需要確定阿莉亞的年齡，然后根據(jù)阿莉亞的年齡計(jì)算出肖娜的年齡，最后再根據(jù)肖娜的年齡計(jì)算出肖娜父親的年齡，整個過程需要多輪驗(yàn)證。

此外，在訓(xùn)練過程中，OpenAI還引入了一種名為“可檢查性訓(xùn)練”（checkability training）的方法。

通過交替訓(xùn)練驗(yàn)證器和證明者模型，從而驗(yàn)證使用監(jiān)督學(xué)習(xí)來預(yù)測從之前輪次的證明者中采樣的解決方案的正確性。證明者則使用強(qiáng)化學(xué)習(xí)，根據(jù)當(dāng)前輪次驗(yàn)證器的接受度和解決方案的正確性來進(jìn)行持續(xù)優(yōu)化。

研究人員表示，隨著訓(xùn)練輪次的增加，驗(yàn)證者的健全性逐漸提升，表現(xiàn)為對狡猾論證者生成的錯誤解決方案的抵抗力增強(qiáng)。同時，有益論證者生成的解決方案也變得更清晰，更易于被人類理解。

分不清9.9與9.11誰大？大模型數(shù)學(xué)能力堪憂

值得注意的是，據(jù)《每日經(jīng)濟(jì)新聞》報道，此前，由綜藝節(jié)目《歌手2024》排名引發(fā)的熱議蔓延到大模型領(lǐng)域，也成了一場針對大模型數(shù)學(xué)能力的小測。

在《每日經(jīng)濟(jì)新聞》記者7月17日的測試中，對于13.11%與13.8%誰大的問題，除了智譜清言外，文心一言、通義千問、kimi、商湯商量、百川智能百小應(yīng)等大模型均給出了正確回答。

大部分大模型都在給出答案的同時呈現(xiàn)了推理過程。智譜清言給出的推理過程顯示，在比較13.11%和13.8%時，13.11%是更大的數(shù)值。這是因?yàn)楫?dāng)比較兩個百分?jǐn)?shù)時，我們首先比較整數(shù)部分，如果它們相同，則比較小數(shù)部分。在這里，兩個數(shù)的整數(shù)部分都是13，但13.11的小數(shù)部分（11）大于13.8的小數(shù)部分（8），因此13.11%大于13.8%。

從推理過程判斷，可能由于小數(shù)點(diǎn)后數(shù)位不同，大模型在比較過程中產(chǎn)生了幻覺。經(jīng)過兩輪提問后，智譜清言給出了正確回答。

當(dāng)記者把問題換成“9.9與9.11誰大”，零一萬物的萬知大模型等同樣在一開始給出錯誤答案，當(dāng)記者進(jìn)一步追問“9.11減9.9等于多少”，甚至有大模型給出“0.21”的答案。

萬知的推理過程稍顯混亂：在比較9.9和9.11時，由于整數(shù)部分都是9，所以比較小數(shù)點(diǎn)后的第一位數(shù)字。9.9的小數(shù)點(diǎn)后第一位是9，而9.11的小數(shù)點(diǎn)后第一位是1。由于9小于10，所以在比較小數(shù)點(diǎn)后第二位數(shù)字時，9.9的小數(shù)點(diǎn)后第二位是0（隱含的），而9.11的小數(shù)點(diǎn)后第二位是1。因此，9.9的小數(shù)點(diǎn)后第二位數(shù)字（隱含的0）小于9.11的小數(shù)點(diǎn)后第二位數(shù)字（1），所以9.9小于9.11。

隨后，記者向大模型提問：為何會出現(xiàn)有大模型認(rèn)為13.11大于13.8的情況？

ChatGPT給出的回答顯示，出現(xiàn)這種情況的原因可能是由于計(jì)算或比較方式的錯誤。可能的誤差原因包括：數(shù)值理解錯誤，有時系統(tǒng)可能會誤解數(shù)字的小數(shù)點(diǎn)位置；字符串比較，如果直接按字符串比較，可能會出現(xiàn)錯誤。因?yàn)樽址容^是按字符順序逐一比較的，而不是按數(shù)值比較；代碼實(shí)現(xiàn)錯誤，在編程中，可能存在比較邏輯或轉(zhuǎn)換錯誤。

文心一言給出的解答則是，訓(xùn)練數(shù)據(jù)偏差、輸入處理與理解、模型幻覺、推理能力不足等原因。訓(xùn)練數(shù)據(jù)偏差層面，即大模型在訓(xùn)練過程中，可能接觸到了大量包含數(shù)字的數(shù)據(jù)，但這些數(shù)據(jù)并不總是以比較大小為目的。例如，數(shù)字可能出現(xiàn)在版本號、股票代碼、基金表現(xiàn)、匯率等上下文中，這些場景下的數(shù)字大小并不總是具有直接的比較意義。如果訓(xùn)練數(shù)據(jù)中存在關(guān)于數(shù)字比較的偏差或不足，模型可能無法學(xué)習(xí)到正確的比較規(guī)則。

另一方面，可能由于大模型在處理輸入文本時，將數(shù)字視為字符序列，而不是具有數(shù)值意義的實(shí)體。因此，在比較數(shù)字大小時，模型可能沒有正確地將其轉(zhuǎn)換為數(shù)值進(jìn)行比較。另外，模型在處理小數(shù)時可能存在困難，特別是當(dāng)小數(shù)位數(shù)不同時。模型可能沒有正確地理解小數(shù)部分的比較規(guī)則。

7月17日，有大模型企業(yè)人士在接受記者電話采訪時表示，對于大模型而言，這不是很難解決的技術(shù)難點(diǎn)，只要喂了這方面的數(shù)據(jù)，其實(shí)就能得到準(zhǔn)確的答案，只不過大部分的大模型廠商沒有把這方面的訓(xùn)練作為重心，所以可能會出現(xiàn)上述不準(zhǔn)確的回答。

OpenAI“草莓”項(xiàng)目曝光，推理能力接近人類？

新近消息顯示，OpenAI正在讓人工智能（AI）大模型的能力更加接近類人的推理水平。

據(jù)知情人士和媒體查閱的內(nèi)部文件，ChatGPT開發(fā)商OpenAI正在一個代號為“草莓”的項(xiàng)目中開發(fā)一種新的人工智能模型。該項(xiàng)目的細(xì)節(jié)此前從未被報道過，目前該公司正在努力展示其提供的模型類型能夠提供高級推理能力。這位知情人士說，即使在OpenAI內(nèi)部，“草莓”的工作原理也是一個嚴(yán)格保密的秘密。

知情人士還透露，該內(nèi)部文件描述了一個使用Strawberry模型的項(xiàng)目，目的是使該公司的人工智能不僅能夠生成查詢的答案，而且能夠提前做好足夠的計(jì)劃，自主、可靠地在互聯(lián)網(wǎng)上導(dǎo)航，以執(zhí)行OpenAI所說的“深度研究”。

圖片來源：視覺中國-VCG31N2008743681

OpenAI被問及上述所說的草莓技術(shù)時，OpenAI的發(fā)言人在一份聲明中表示：“我們希望自身AI 模型能夠像我們（人類）一樣看待和理解世界。持續(xù)研究新的AI能力是業(yè)界的常見做法，大家都相信這些系統(tǒng)的推理能力會隨著時間的推移而提高。”

雖然該發(fā)言人未直接回答有關(guān)草莓的問題，但媒體稱，草莓項(xiàng)目此前名為Q*。而Q*正是去年被爆出OpenAI CEO突然被解雇宮斗大戲的導(dǎo)火索。

去年11月媒體稱，OpenAI代號Q*的項(xiàng)目實(shí)現(xiàn)重大突破，讓人類實(shí)現(xiàn)通用人工智能（AGI）的步伐大大提速，但OpenAI CEO 奧特曼可能沒有和董事會詳細(xì)披露Q*的進(jìn)展，這是董事會突然解雇奧特曼的一個原因。OpenAI的內(nèi)部人士向董事會致信警告，Q*的重大發(fā)現(xiàn)可能威脅全人類。

媒體稱，Q*可能具備GPT-4所不具備的基礎(chǔ)數(shù)學(xué)能力，或許意味著與人類智能相媲美的推理能力，網(wǎng)友推測，這可能代表OpenAI朝著其設(shè)定的AGI目標(biāo)邁出了一大步。

今年3月曝光的一份文件顯示，OpenAI計(jì)劃，在2027年以前，開發(fā)出人類水平的AGI。OpenAI 2022年就開始訓(xùn)練一個125萬億參數(shù)的多模態(tài)模型，該模型名為Arrakis或Q*，原本計(jì)劃在2025年作為GPT-5發(fā)布，但因推理成本高而取消。OpenAI此后計(jì)劃，2027年發(fā)布的Q 2025（GPT-8）將實(shí)現(xiàn)完全的AGI。

人工智能（AI）研究者早就在爭論用什么標(biāo)準(zhǔn)判斷人類實(shí)現(xiàn)了通用人工智能（AGI）。OpenAI最近開發(fā)了一套系統(tǒng)，“自定義”AI進(jìn)化等級，以此追蹤開發(fā)人類級別AI的進(jìn)展。

每日經(jīng)濟(jì)新聞綜合OpenAI官網(wǎng)、每日經(jīng)濟(jì)新聞（記者可楊）、公開資料

如需轉(zhuǎn)載請與《每日經(jīng)濟(jì)新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

模型 Ai OpenAI

上一篇文章

新型薄膜半導(dǎo)體電子遷移速度創(chuàng)紀(jì)錄

返回每經(jīng)網(wǎng)首頁

下一篇文章

北向資金動向盤點(diǎn)：26股減持金額超1億元

相關(guān)文章

熱文精選

點(diǎn)擊排行

歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

每經(jīng)經(jīng)濟(jì)新聞官方APP

關(guān)注我們
辟謠專區(qū)

加入我們
招聘專頁

Copyright ? 2025 每日經(jīng)濟(jì)新聞報社版權(quán)所有，未經(jīng)許可不得轉(zhuǎn)載使用，違者必究。

廣告熱線? 北京: 010-57613265，?上海: 021-61283008，?廣州: 020-84201861，?深圳: 0755-83520159，?成都: 028-86512112

網(wǎng)絡(luò)社會征信網(wǎng)

兒童色情信息舉報專區(qū)

成都市互聯(lián)網(wǎng)不良與違法信息舉報中心

四川省互聯(lián)網(wǎng)舉報中心

中國互聯(lián)網(wǎng)舉報中心

每日經(jīng)濟(jì)新聞互聯(lián)網(wǎng)不良與違法信息舉報中心

互聯(lián)網(wǎng)新聞信息服務(wù)許可證：51120190017 網(wǎng)站備案號：蜀ICP備19004508號-3 川公網(wǎng)安備 51019002002026號

新聞職業(yè)道德監(jiān)督熱線：400 889 0008 郵箱：zbb@nbd.com.cn

免费va国产高清不卡大片,笑看风云电视剧,亚洲黄色性爱在线观看,成人在线免费