每日經(jīng)濟新聞

今日報紙

每經(jīng)網(wǎng)首頁 > 今日報紙 > 正文

誰是最強“AI記者”？每日經(jīng)濟新聞大模型評測報告（第1期）發(fā)布

每日經(jīng)濟新聞 2024-06-26 23:06:53

生成式AI大模型正在深刻改變媒體行業(yè)，為內(nèi)容創(chuàng)作與傳播帶來了革命性的變化。

那么，面對“百模大戰(zhàn)”，面對市面上數(shù)量眾多的大模型，媒體行業(yè)工作者或內(nèi)容創(chuàng)作者，究竟該如何選擇大模型？在內(nèi)容創(chuàng)作的特定場景選擇哪個大模型？

面對上述困惑，近期，由30余位每日經(jīng)濟新聞優(yōu)秀記者、編輯和子公司每經(jīng)科技工程師組建的“每日經(jīng)濟新聞大模型評測小組”，對市場上主流大模型在財經(jīng)新聞工作場景中的表現(xiàn)與能力進行了歷時2個月的深入評測，并推出《每日經(jīng)濟新聞大模型評測報告》（第1期）。

“每日經(jīng)濟新聞大模型評測小組”此次選取了GPT4.0、百度文心、月之暗面等15款市場主流的國內(nèi)外大模型進行測試。圖為2023世界人工智能大會上的百度文心大模型展臺。視覺中國圖

《每日經(jīng)濟新聞大模型評測報告》（第1期）顯示，國產(chǎn)大模型正在全面趕超海外大模型，零一萬物的Yi-Large成為最大“黑馬”，在“財經(jīng)新聞標題創(chuàng)作”“微博新聞寫作”“文章差錯校對”“財務數(shù)據(jù)計算與分析”四大應用場景的總分排名第一?；梅角笏鱀eepSeek-V2、百川智能Baichuan4則在“財務數(shù)據(jù)計算與分析”場景顯示出強大的數(shù)據(jù)計算和分析能力。而一直備受各界推崇的GPT4.0在本次評測中表現(xiàn)不佳，甚至在“財經(jīng)新聞標題創(chuàng)作”場景中排名墊底。

每日經(jīng)濟新聞作為中國主流財經(jīng)媒體，早在2020年就提出“AI化+視頻化”的科技智媒轉(zhuǎn)型戰(zhàn)略，陸續(xù)推出每經(jīng)AI快訊系統(tǒng)，每經(jīng)AI電視，雨燕智宣——AI短視頻自動生成平臺，智能媒資庫等一系列AI產(chǎn)品，贏得市場贊譽。同時，在生成式AI爆發(fā)后，每經(jīng)眾多采編人員深耕大模型領域，涌現(xiàn)了30余位優(yōu)秀的提示工程師和技術工程師。專業(yè)的財經(jīng)新聞采編能力與不斷深耕的AI技術能力，為大模型評測提供了堅實保障。

后續(xù)，“每日經(jīng)濟新聞大模型評測小組”將圍繞更多的大模型應用場景，定期發(fā)布大模型評測報告。

《每日經(jīng)濟新聞大模型評測報告》的目的，是關注企業(yè)和個人用戶的實際需求，通過評測大模型在實際應用場景中的表現(xiàn)，進而幫助用戶在工作、學習、生活等場景中，找到最合適的大模型工具，提升效率。

為此，“每日經(jīng)濟新聞大模型評測小組”選取了GPT4.0、百度文心、月之暗面等15款市場主流的國內(nèi)外大模型，圍繞“財經(jīng)新聞標題創(chuàng)作”“微博新聞寫作”“文章差錯校對”“財務數(shù)據(jù)計算與分析”四個財經(jīng)新聞的主要應用場景進行測評。評測均通過各款大模型API端口，在每經(jīng)科技自主開發(fā)的“雨燕智宣AI創(chuàng)作+”大模型測試臺上進行。評測結(jié)果出來后，由15位每日經(jīng)濟新聞資深記者和編輯進行嚴格人工核準、評分和排名。

評測結(jié)果顯示，零一萬物的Yi-Large成為“黑馬”，總分排名第一。Anthropic Claude 3 Opus和幻方求索DeepSeek-V2分居第二、第三。各個大模型在不同場景和不同任務中的表現(xiàn)差異明顯。GPT4.0的表現(xiàn)令人意外，僅名列倒數(shù)第五。

每日經(jīng)濟新聞大模型評測小組 2024年6月

15款大模型參與本期評測

結(jié)論一：國產(chǎn)大模型正全面趕超

國產(chǎn)大模型正逐漸展現(xiàn)出其競爭力。與國外大模型相比，它們在多個任務上的表現(xiàn)已經(jīng)顯示出趕超之勢。

國產(chǎn)大模型在多個測試場景中排名靠前。商湯商量SenseChat-5三次占據(jù)前五席位，兩次擊敗谷歌Gemini 1.5 Pro。在國外模型中，Anthropic Claude 3 Opus同樣在三個測評場景中排名前五，谷歌Gemini 1.5 Pro在“財經(jīng)新聞標題創(chuàng)作”和“文章差錯校對”兩個場景中排名第一。令人意外的是，一直備受各界推崇的GPT4.0卻在本次評測中整體表現(xiàn)不佳，在每個場景中都未能斬獲前五名，甚至在“財經(jīng)新聞標題創(chuàng)作”中排名墊底。

“財經(jīng)新聞標題創(chuàng)作”場景中，商湯商量SenseChat-5、字節(jié)豆包Doubao-pro-32k和百度ERNIE 4.0等，在信息提煉準確度和重要新聞點突出方面與谷歌的Gemini 1.5 Pro不相上下。

“微博新聞寫作”場景中，百度文心ERNIE4.0、商湯SenseChat-5等模型的總分與國外模型Anthropic Claude 3 Opus并列第一。

“文章差錯校對”場景中，零一萬物的YiLarge是唯一一款得分超過100分的國產(chǎn)大模型。國產(chǎn)大模型比國外大模型更能理解漢語句式和表達規(guī)范。但在查找并修改錯別字、標點使用不當、數(shù)字和量詞錯誤、事實和信息錯誤等要求更精準的任務方面，還有提升空間。

“財務數(shù)據(jù)計算和分析”場景中，Anthropic Claude 3 Opus總分雖領先，但對幻方求索DeepSeek-V2和零一萬物Yi-Large的優(yōu)勢并不大。尤其是幻方求索DeepSeek-V2成為此場景評測中一匹“黑馬”，其“財務數(shù)據(jù)分析”能力突出。

結(jié)論二：大模型各有專長

不同模型在特定場景、特定維度、特定指標上的表現(xiàn)差異顯著。體現(xiàn)了它們在各自領域的專長。

例如，谷歌Gemini 1.5 Pro在“財經(jīng)新聞標題創(chuàng)作”和“文章差錯校對”兩大場景中排名第一。在“微博新聞寫作”場景中，該模型整體排名靠后。

Anthropic Claude 3 Opus、幻方求索DeepSeek-V2、百川智能Baichuan4則顯示出了強大的數(shù)據(jù)計算能力。

結(jié)論三：跨語言環(huán)境下差異明顯

以“微博新聞寫作”場景為例，百度文心ERNIE 4.0、商湯商量SenseChat-5與Anthropic Claude 3 Opus并列第一。這反映了國產(chǎn)大模型在微博這一國內(nèi)社交媒體場景下的卓越表現(xiàn)。國產(chǎn)大模型更能夠準確把握微博用戶的內(nèi)容偏好和交流方式，生成符合平臺特性和用戶期待的微博文案。

相比之下，谷歌Gemini 1.5 Pro在微博寫作的運營維度上得分為0，可能源于其對微博平臺特性和用戶行為的不熟悉。

在中文語境之下，GPT4.0在全部4個場景中的排名均不理想。這一現(xiàn)象突顯了大模型在跨語言和文化環(huán)境中的適應性問題，也表明了國產(chǎn)大模型在本土化應用上具有天然優(yōu)勢。

結(jié)論四：信息提取能力參差不齊

從文章中準確提取關鍵信息，是對大模型能力的一項關鍵挑戰(zhàn)。本期評測中“文章差錯校對”場景包含了對這一能力的測試。

谷歌Gemini 1.5 Pro憑借其在錯別字、標點使用不當、數(shù)字和量詞錯誤、事實和信息錯誤的查找和糾錯方面與其他大模型拉開了差距。

相比之下，零一萬物Yi-Large在病句查找和糾錯方面則位居首位，本可以挑戰(zhàn)谷歌Gemini 1.5 Pro，但在錯誤查找方面的表現(xiàn)拖了后腿。

大模型信息提取能力的差異可能與模型的訓練數(shù)據(jù)、算法設計以及對語言細微差別的捕捉能力有關。增強大模型的信息提取能力，可以提高其生成結(jié)果的準確度，更能讓大模型適用于對準確性要求極高的新聞工作。

報告完整版以及測評題目，評分指標細則及部分案例，可訪問：每日經(jīng)濟新聞大模型評測報告（第1期）

接下來，“每日經(jīng)濟新聞大模型評測小組”將繼續(xù)深入探索大模型的無限可能，從實際應用場景出發(fā)，對各個大模型進行全方位評測，并定期推出專業(yè)報告，帶來最前沿的洞察和發(fā)現(xiàn)。

在此，我們誠摯地邀請您，加入評測項目。

如果您是研發(fā)企業(yè)，想要展示自家大模型的實力，與其他大模型進行比拼，請將參評大模型的詳細信息發(fā)送至我們的郵箱：damoxing@nbd.com.cn。

如果您是大模型的使用者，請告訴我們您希望在哪些場景中使用大模型，或者希望我們測試大模型的哪些能力。打開每日經(jīng)濟新聞App，在“個人中心”——“意見反饋”欄中留下您的想法和需求。

期待您的參與，共同探索大模型的無限可能。

封面圖片來源：視覺中國

如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權(quán)，嚴禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

模型大模型經(jīng)濟 Ai

上一篇文章

黃河旋風回復年報監(jiān)管工作函：短期內(nèi)無法扭轉(zhuǎn)虧損局面

返回每經(jīng)網(wǎng)首頁

下一篇文章

“創(chuàng)投十七條”有何關鍵舉措？國家發(fā)改委答每經(jīng)：動員有條件的社會資本做“耐心資本”

相關文章

熱文精選

點擊排行

歡迎關注每日經(jīng)濟新聞APP

每經(jīng)經(jīng)濟新聞官方APP

關注我們
辟謠專區(qū)

加入我們
招聘專頁

Copyright ? 2025 每日經(jīng)濟新聞報社版權(quán)所有，未經(jīng)許可不得轉(zhuǎn)載使用，違者必究。

廣告熱線? 北京: 010-57613265，?上海: 021-61283008，?廣州: 020-84201861，?深圳: 0755-83520159，?成都: 028-86512112

網(wǎng)絡社會征信網(wǎng)

兒童色情信息舉報專區(qū)

成都市互聯(lián)網(wǎng)不良與違法信息舉報中心

四川省互聯(lián)網(wǎng)舉報中心

中國互聯(lián)網(wǎng)舉報中心

每日經(jīng)濟新聞互聯(lián)網(wǎng)不良與違法信息舉報中心

互聯(lián)網(wǎng)新聞信息服務許可證：51120190017 網(wǎng)站備案號：蜀ICP備19004508號-3 川公網(wǎng)安備 51019002002026號

新聞職業(yè)道德監(jiān)督熱線：400 889 0008 郵箱：zbb@nbd.com.cn

免费va国产高清不卡大片,笑看风云电视剧,亚洲黄色性爱在线观看,成人在线免费