每日經(jīng)濟(jì)新聞 2024-07-17 12:55:40
每經(jīng)編輯 王月龍
7月13日
最新一期的《歌手》公布排名
孫楠得票13.8%
外國歌手香緹莫得票13.11%。
引發(fā)了網(wǎng)友對排名的質(zhì)疑
不少網(wǎng)友認(rèn)為13.11%大于13.8%,
因此,香緹莫的得票率比孫楠高。
隨后,關(guān)于13.8和13.11大小比較的話題,
迅速沖上微博熱搜!
其實,這個知識點
在小學(xué)四年級的課本中就有答案。
然而,這道小學(xué)生難度的數(shù)學(xué)題
也難倒了一眾海內(nèi)外AI大模型。
據(jù)第一財經(jīng)、財聯(lián)社等媒體測試,ChatGPT、Kimi、智譜清言、商湯商量、階躍星辰等大部分大模型應(yīng)用紛紛翻車,而文心一言、字節(jié)豆包等少部分大模型則守住了尊嚴(yán)。
值得注意的是,ChatGPT等大模型出現(xiàn)了胡說八道的現(xiàn)象。在為13.8填補(bǔ)了13.80的零位數(shù)后,才得出了正確的回答。這類大模型說胡話的現(xiàn)象,在業(yè)界被稱為大模型出現(xiàn)幻覺。此前,哈爾濱工業(yè)大學(xué)和華為的研究團(tuán)隊發(fā)表的綜述論文認(rèn)為,模型產(chǎn)生幻覺的三大來源:數(shù)據(jù)源、訓(xùn)練過程和推理。大模型可能會過度依賴訓(xùn)練數(shù)據(jù)中的一些模式,如位置接近性、共現(xiàn)統(tǒng)計數(shù)據(jù)和相關(guān)文檔計數(shù),從而導(dǎo)致幻覺。此外,大模型還可能會出現(xiàn)長尾知識回憶不足、難以應(yīng)對復(fù)雜推理的情況。
有產(chǎn)業(yè)界人士表示,目前大模型的幻覺率仍然較高,這也是產(chǎn)業(yè)界缺乏真正顛覆性應(yīng)用的原因之一,業(yè)界都在共同解決這一核心問題,讓大模型在業(yè)務(wù)流程中變得更可控。
據(jù)極目新聞,今年6月19日,上海人工智能實驗室發(fā)布首個AI高考全卷評測結(jié)果,本次評測采用全國新課標(biāo)Ⅰ卷,其中,語文評卷顯示,大模型的現(xiàn)代文閱讀理解能力普遍較強(qiáng),但不同模型的文言文閱讀理解能力差距較大。大模型寫的作文更像問答題,雖有針對性,但缺乏修飾,幾乎不用人類考生都會使用的舉例論證、引用論證、名人名言等手法。多數(shù)大模型不理解“本體”“喻體”“暗喻”等語文概念。對于文章中的一些“潛臺詞”,大模型也無法完全理解。
數(shù)學(xué)評卷顯示,大模型的主觀題回答相對凌亂,解題過程有迷惑性,甚至出現(xiàn)過程錯誤但得到正確答案的情況。大模型的公式記憶能力很強(qiáng),但無法在解題過程中靈活運(yùn)用。
大模型的英語整體表現(xiàn)良好,大模型寫的英語作文普遍存在因超出字?jǐn)?shù)限制被扣分的情況,而人類考生大多因為字?jǐn)?shù)不夠被扣分。
據(jù)第一財經(jīng),一位算法工程師認(rèn)為,生成式的語言模型更像文科生而不是理科生。實際上語言模型在這樣的數(shù)據(jù)訓(xùn)練過程中學(xué)到的是相關(guān)性,使得AI在文字創(chuàng)作上達(dá)到人類平均水平,而數(shù)學(xué)推理更需要的是因果性,數(shù)學(xué)是高度抽象和邏輯驅(qū)動的,與語言模型處理的語言數(shù)據(jù)在本質(zhì)上有所不同。這意味著大模型要學(xué)好數(shù)學(xué),除了學(xué)習(xí)世界知識外,還應(yīng)該有思維的訓(xùn)練,從而具備推理演繹能力。
不過,上述問題也正在慢慢被解決,在思維能力上更核心的可能還是訓(xùn)練語料的問題。大語言模型主要通過互聯(lián)網(wǎng)上的文本數(shù)據(jù)進(jìn)行訓(xùn)練,而這些數(shù)據(jù)中數(shù)學(xué)問題和解決方案相對較少,導(dǎo)致模型在數(shù)學(xué)推理和問題解決技能上的訓(xùn)練機(jī)會有限。
值得一提的是,大模型的復(fù)雜推理能力尤為重要,這關(guān)乎可靠性和準(zhǔn)確性,是大模型在金融、工業(yè)等場景落地需要的關(guān)鍵能力。
“現(xiàn)在很多大模型的應(yīng)用場景是客服、聊天等等,在聊天場景一本正經(jīng)胡說八道影響不太大,但它很難在非常嚴(yán)肅的商業(yè)場合去落地。”上海人工智能實驗室領(lǐng)軍科學(xué)家林達(dá)華此前表示,復(fù)雜推理關(guān)系到落地應(yīng)用時大模型的可靠性,例如在金融這樣的場景下不能在數(shù)字上有差錯,會對數(shù)學(xué)上的可靠性有較高的要求。另外隨著大模型進(jìn)入商用,若要分析一家公司的財報,甚至是工業(yè)領(lǐng)域要去分析一些技術(shù)文檔,這時數(shù)學(xué)方面的計算能力就會成為一個壁壘。
編輯|王月龍 杜恒峰
校對|盧祥勇
每日經(jīng)濟(jì)新聞綜合公開信息、第一財經(jīng)、財聯(lián)社、極目新聞
如需轉(zhuǎn)載請與《每日經(jīng)濟(jì)新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP