每日經(jīng)濟(jì)新聞
要聞

每經(jīng)網(wǎng)首頁(yè) > 要聞 > 正文

科大訊飛首推深度推理模型 深度思考成為模型發(fā)展決勝關(guān)鍵?

每日經(jīng)濟(jì)新聞 2025-01-15 17:15:00

1月15日,科大訊飛發(fā)布發(fā)布國(guó)內(nèi)首個(gè)基于全國(guó)產(chǎn)算力平臺(tái)訓(xùn)練的具備深度思考和推理能力的大模型——訊飛星火深度推理模型X1。深度思考與邏輯推理能解決訓(xùn)練成本高、亂答題等問(wèn)題,成為模型發(fā)展決勝關(guān)鍵。目前,推理模型在數(shù)學(xué)、醫(yī)療等領(lǐng)域表現(xiàn)出色,已產(chǎn)生真實(shí)價(jià)值,如讓AI學(xué)習(xí)機(jī)學(xué)習(xí)推薦和診斷更精準(zhǔn)等。

每經(jīng)記者 張寶蓮    每經(jīng)編輯 陳俊杰    

AI界掀起的“推理潮”正在成為大模型發(fā)展的又一競(jìng)爭(zhēng)領(lǐng)域。

1月15日,科大訊飛(002230.SZ,股價(jià)46.49元,市值1074.73億元)發(fā)布國(guó)內(nèi)首個(gè)基于全國(guó)產(chǎn)算力平臺(tái)訓(xùn)練的具備深度思考和推理能力的大模型——訊飛星火深度推理模型X1(以下簡(jiǎn)稱X1模型)。

深度推理模型,即擁有更長(zhǎng)鏈條的邏輯思考和推理能力。和基礎(chǔ)模型最直觀的區(qū)別,便是在解決復(fù)雜問(wèn)題上更具有優(yōu)勢(shì),在回答問(wèn)題之前模型會(huì)形成一段較長(zhǎng)的思維鏈條,使得答題能力和準(zhǔn)確度大幅提升。例如在解決高考數(shù)學(xué)題或者是奧賽題上,效率與準(zhǔn)確率得到大幅提升。

《每日經(jīng)濟(jì)新聞》記者從科大訊飛方面獲悉,X1模型具備3個(gè)典型特點(diǎn)。首先,可以化繁為簡(jiǎn),將復(fù)雜問(wèn)題拆解成多個(gè)步驟進(jìn)行思考和推理。其次可以進(jìn)行自我反思和驗(yàn)證,第三是由于人類標(biāo)注數(shù)據(jù)難度極大,X1模型會(huì)根據(jù)答案的正確與否進(jìn)行強(qiáng)化訓(xùn)練。

推理模型:一條全新的技術(shù)路線

不同于此前生成式AI通過(guò)大規(guī)模預(yù)訓(xùn)練來(lái)進(jìn)行下一個(gè)詞的預(yù)測(cè),并將重心放置于語(yǔ)義理解、文本生成上,推理模型的工作思路更接近于像人一樣思考。

2024年9月,OpenAI率先推出了其最強(qiáng)的推理模型o1,并稱o1在測(cè)試化學(xué)、物理和生物學(xué)專業(yè)知識(shí)的基準(zhǔn)GPQA-diamond上,全面超過(guò)了人類博士專家,OpenAI曾宣稱“通用人工智能之路,已經(jīng)沒(méi)有任何阻礙”。

OpenAI所推出的o1背后的訓(xùn)練方式與之前的模型有著根本不同。它使用了一種全新的優(yōu)化算法和專門(mén)為其量身定制的新訓(xùn)練數(shù)據(jù)集進(jìn)行訓(xùn)練,這個(gè)數(shù)據(jù)集中包含“推理數(shù)據(jù)”和專門(mén)為其量身定制的科學(xué)文獻(xiàn)。并采用“強(qiáng)化學(xué)習(xí)”的方式,通過(guò)獎(jiǎng)勵(lì)和懲罰來(lái)教導(dǎo)模型自行解決問(wèn)題,再通過(guò)“思路鏈”(chain of thoughts)來(lái)處理用戶查詢的問(wèn)題,給出思路鏈的總結(jié)摘要版,類似于人類一步步來(lái)處理問(wèn)題的方式。

X1模型的訓(xùn)練亦是采用了一條全新的技術(shù)路線。據(jù)科大訊飛研究院的研究員介紹,X1模型訓(xùn)練和推理需要高強(qiáng)度的交互,并且涉及到跨任務(wù)的數(shù)據(jù)傳輸。這種新的技術(shù)路線帶來(lái)了任務(wù)優(yōu)化目標(biāo)的轉(zhuǎn)變,從以往追求高在線響應(yīng)速度,轉(zhuǎn)變?yōu)樽非蟾叩碾x線吞吐任務(wù)處理能力。

科大訊飛研究院的研究員在1月15日的直播中演示了X1模型如何解答高考題、AIME競(jìng)賽題以及高中奧賽題。X1模型不僅準(zhǔn)確給出了這些題目的答案,還對(duì)解題思路和步驟進(jìn)行了詳細(xì)拆解。與通用大模型相比,其解題過(guò)程更接近人類的“慢思考”方式,并且用更少的算力,實(shí)現(xiàn)了更好的效果,這是推理模型的優(yōu)勢(shì)。

根據(jù)科大訊飛方面提供的數(shù)據(jù),訊飛星火X1在近期參加的小初高(含競(jìng)賽)、大學(xué)(含競(jìng)賽)、AIME、MATH 500等多項(xiàng)“考試”中,與OpenAI o1 Preview、OpenAI o1、DS-R1-Lite-Preview、QwQ 32B-Preview、k1-math、InternThinker(均為當(dāng)前先進(jìn)的推理模型)等測(cè)試成績(jī)相比分?jǐn)?shù)排名靠前。

深度思考成模型發(fā)展決勝關(guān)鍵?

從當(dāng)前看,模型學(xué)會(huì)深度思考與邏輯推理,能夠有效解決訓(xùn)練成本高攀、缺乏邏輯推理導(dǎo)致亂答題的現(xiàn)象,從一個(gè)使用工具變成一個(gè)自動(dòng)化的“勞動(dòng)力”?;谳斎霐?shù)據(jù),通過(guò)邏輯推理和概率計(jì)算,得出更加準(zhǔn)確和可靠的預(yù)測(cè)結(jié)果,能夠讓大模型在應(yīng)用場(chǎng)景中獲得更多的競(jìng)爭(zhēng)優(yōu)勢(shì),成為未來(lái)競(jìng)爭(zhēng)的決勝關(guān)鍵。

在o1發(fā)布后,國(guó)產(chǎn)大模型廠商深度求索、阿里通義、月之暗面、智譜GLM、昆侖萬(wàn)維等也在去年11月到今年1月迅速跟進(jìn),先后推出了自己的深度推理模型。

DeepSeek在去年11月發(fā)布DeepSeek 推理模型預(yù)覽版時(shí)稱:“‘深度思考’ 模式專門(mén)針對(duì)數(shù)學(xué)、代碼等各類復(fù)雜邏輯推理問(wèn)題而設(shè)計(jì),相比于普通的簡(jiǎn)單問(wèn)題,能夠提供更加全面、清晰、思路嚴(yán)謹(jǐn)?shù)膬?yōu)質(zhì)解答,充分展現(xiàn)出較長(zhǎng)思維鏈的更多優(yōu)勢(shì)。”

智譜微信公眾號(hào)在2024年最后一天發(fā)布其深度推理模型GLM-Zero預(yù)覽版并稱:“我們探索并驗(yàn)證了強(qiáng)化學(xué)習(xí)在增強(qiáng)模型深度推理能力方面不可取代的作用。隨著強(qiáng)化學(xué)習(xí)訓(xùn)練量的增加,模型在深度推理等方面的效果穩(wěn)步提升。”

科大訊飛方面稱,在o1發(fā)布之后,科大訊飛在一個(gè)月之內(nèi)迅速跑通了關(guān)鍵算法。盡管在全國(guó)產(chǎn)算力平臺(tái)上訓(xùn)練深度推理模型遭遇了諸多挑戰(zhàn),但最終攻克了訓(xùn)練推理強(qiáng)交互、高吞吐推理優(yōu)化以及國(guó)產(chǎn)算子優(yōu)化等一系列難題。

目前,推理模型在具有高度確定性答案的數(shù)學(xué)、醫(yī)療、代碼等領(lǐng)域已經(jīng)有了出色的表現(xiàn),不斷改進(jìn)的工作在適應(yīng)日益復(fù)雜的應(yīng)用落地上已經(jīng)有了初步驗(yàn)證。在應(yīng)用上,科大訊飛方面稱,X1已經(jīng)在應(yīng)用領(lǐng)域產(chǎn)生了真實(shí)價(jià)值。

教育業(yè)務(wù)上,科大訊飛稱,隨著相關(guān)技術(shù)融入,AI學(xué)習(xí)機(jī)學(xué)習(xí)推薦和診斷將變得更加精準(zhǔn),解題思路和知識(shí)鏈條將更加清晰。醫(yī)療領(lǐng)域,X1模型策略可使得??戚o助診斷和復(fù)雜病歷內(nèi)涵質(zhì)控的準(zhǔn)確率均達(dá)90%。

如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。

讀者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。

歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

每經(jīng)經(jīng)濟(jì)新聞官方APP

0

0

免费va国产高清不卡大片,笑看风云电视剧,亚洲黄色性爱在线观看,成人 在线 免费