每日經(jīng)濟(jì)新聞

要聞

每經(jīng)網(wǎng)首頁(yè) > 要聞 > 正文

評(píng)分高達(dá)92.6%！谷歌AI醫(yī)療大模型重磅論文登上《自然》：水平媲美臨床醫(yī)生，但承認(rèn)臨床應(yīng)用前仍有限制需克服

每日經(jīng)濟(jì)新聞 2023-07-13 22:01:06

◎ 谷歌醫(yī)療大模型Med-PaLM的回答獲得評(píng)分高達(dá)92.6%，與現(xiàn)實(shí)中臨床醫(yī)生的水平（92.9%）相當(dāng)。

每經(jīng)記者蔡鼎每經(jīng)編輯蘭素英

“AI醫(yī)生”，離我們?cè)絹?lái)越近了。

7月12日，谷歌和DeepMind的科研人員在《自然》雜志上發(fā)表了一項(xiàng)研究，不僅提出了MultiMedQA（美國(guó)醫(yī)師執(zhí)照試題）評(píng)估基準(zhǔn)，用于評(píng)估大語(yǔ)言模型在編碼臨床知識(shí)方面的表現(xiàn)，還詳解了谷歌醫(yī)療大模型Med-PaLM的進(jìn)化過(guò)程。

最終的研究結(jié)果顯示，一組臨床醫(yī)生對(duì)谷歌和DeepMind團(tuán)隊(duì)的醫(yī)療大模型Med-PaLM回答的評(píng)分高達(dá)92.6%，與現(xiàn)實(shí)中人類(lèi)臨床醫(yī)生的水平（92.9%）相當(dāng)。此外，Med-PaLM僅5.9%的答案被評(píng)為可能導(dǎo)致“有害”結(jié)果，與臨床醫(yī)生生成的答案（5.7%）的結(jié)果相似。

盡管如此，該研究團(tuán)隊(duì)承認(rèn)，鑒于現(xiàn)實(shí)醫(yī)學(xué)領(lǐng)域的復(fù)雜性，在Med-PaLM實(shí)現(xiàn)大規(guī)模應(yīng)用前，仍需克服不少限制。

谷歌醫(yī)療大模型Med-PaLM幾乎可媲美人類(lèi)醫(yī)生

在這篇最新的《自然》論文中，谷歌和DeepMind科學(xué)家團(tuán)隊(duì)介紹了全新的MultiMedQA評(píng)估基準(zhǔn)，專(zhuān)門(mén)用于評(píng)估大語(yǔ)言模型在編碼臨床知識(shí)方面的表現(xiàn)。

該基準(zhǔn)結(jié)合了六個(gè)現(xiàn)有醫(yī)療問(wèn)答數(shù)據(jù)集（MedQA 、MedMCQA 、PubMedQA、LiveQA 、MedicationQA和MMLU），涵蓋專(zhuān)業(yè)醫(yī)學(xué)、研究和消費(fèi)者查詢(xún)等多個(gè)方面，以及一個(gè)全新的在線搜索醫(yī)療問(wèn)題庫(kù)數(shù)據(jù)集HealthSearchQA，力圖從多方面把AI培養(yǎng)成一名合格的醫(yī)生。

此外，該團(tuán)隊(duì)提出了一個(gè)基于人類(lèi)評(píng)估的框架模型，該模型包括多個(gè)維度，例如事實(shí)、理解、推理，以及可能的偏見(jiàn)。

該團(tuán)隊(duì)在MultiMedQA上對(duì)擁有5400億參數(shù)的谷歌大型語(yǔ)言模型PaLM（Pathways Language Model）及其變體Flan-PaLM進(jìn)行了評(píng)估。

在實(shí)驗(yàn)中，研究人員采用了提示策略組合，F(xiàn)lan-PaLM在每個(gè)MultiMedQA多選題數(shù)據(jù)集上都達(dá)到了極高的準(zhǔn)確率，其中在MedQA（美國(guó)醫(yī)學(xué)執(zhí)照考試類(lèi)型問(wèn)題）上的準(zhǔn)確率為67.6%，比之前的技術(shù)水平高出17%以上。

圖片來(lái)源：《自然》

論文指出，雖然Flan-PaLM在MedQA的多項(xiàng)選擇題上表現(xiàn)出色，但它對(duì)病人醫(yī)療問(wèn)題的回答卻暴露出關(guān)鍵的差距。為了解決這個(gè)問(wèn)題，谷歌科學(xué)家團(tuán)隊(duì)提出了指令提示調(diào)整，讓Flan-PaLM進(jìn)一步與醫(yī)學(xué)接軌，產(chǎn)生了Med-PaLM。

在評(píng)估中，Med-PaLM表現(xiàn)令人鼓舞，一組臨床醫(yī)生對(duì)其回答的評(píng)分為92.6%，與現(xiàn)實(shí)中臨床醫(yī)生的水平（92.9%）相當(dāng)。

圖片來(lái)源：《自然》

除了專(zhuān)家評(píng)估，研究團(tuán)隊(duì)還邀請(qǐng)了五名非醫(yī)學(xué)領(lǐng)域?qū)＜遥ㄓ《鹊姆轻t(yī)學(xué)背景普通人）來(lái)評(píng)估答案。

結(jié)果顯示，F(xiàn)lan-PaLM給出的答案在60.6%的案例中被認(rèn)為是有用的，而Med-PaLM給出的答案準(zhǔn)確度則增加到80.3%。同樣，在90.8%的情況下，F(xiàn)lan-PaLM的答案被判斷為直接解決了病人提出的問(wèn)題，而Med-PaLM將這一比例提高到了94.4%，人類(lèi)臨床醫(yī)生這一比列則在95.9%。換句話說(shuō)，在直接解決病人問(wèn)題方面，Med-PaLM幾乎可以和人類(lèi)臨床醫(yī)生的能力相媲美。

圖片來(lái)源：《自然》

論文稱(chēng)，雖然這些結(jié)果非常令人鼓舞，但現(xiàn)實(shí)中的醫(yī)學(xué)領(lǐng)域是相當(dāng)復(fù)雜的。因此，還有必要對(duì)該大語(yǔ)言模型進(jìn)行進(jìn)一步評(píng)估，特別是在安全性、公平性和偏見(jiàn)方面。在將這些模型運(yùn)用到臨床應(yīng)用之前，還有許多限制需要克服。研究人員預(yù)計(jì)最新的這項(xiàng)研究將激發(fā)患者、消費(fèi)者、AI研究人員、臨床醫(yī)生、社會(huì)科學(xué)家、倫理學(xué)家、政策制定者和其他利益相關(guān)方之間進(jìn)一步對(duì)話和合作，從而負(fù)責(zé)任地將這些早期研究成果轉(zhuǎn)換為真正的現(xiàn)實(shí)應(yīng)用。

但不可否認(rèn)的是，谷歌科學(xué)家團(tuán)隊(duì)的研究表明，隨著模型規(guī)模的擴(kuò)大和提示詞的調(diào)整，其理解能力、知識(shí)回憶和推理能力均有所提高，這表明大語(yǔ)言模型在醫(yī)學(xué)領(lǐng)域具有潛在的實(shí)用性。此外，研究團(tuán)隊(duì)的人類(lèi)評(píng)估也揭示了當(dāng)今大語(yǔ)言模型的局限性，也強(qiáng)調(diào)了評(píng)估框架和方法在為臨床應(yīng)用創(chuàng)建安全、有用的大語(yǔ)言模型方面的重要性。

AI醫(yī)療市場(chǎng)五年內(nèi)或破千億美元，科技巨頭紛紛布局

基礎(chǔ)模型和大語(yǔ)言模型的出現(xiàn)為醫(yī)學(xué)AI的發(fā)展提供了助力。《每日經(jīng)濟(jì)新聞》記者注意到，其實(shí)除了谷歌和其旗下的DeepMind外，微軟、IBM等科技大廠一直在持續(xù)關(guān)注AI醫(yī)療方面的應(yīng)用落地。在這輪大模型浪潮之前，AI檢測(cè)心電圖、X光片已在一些醫(yī)院中投入應(yīng)用。

IBM官網(wǎng)對(duì)醫(yī)學(xué)領(lǐng)域AI的介紹

過(guò)去數(shù)年來(lái)，AI在醫(yī)療領(lǐng)域的發(fā)展迅猛，為醫(yī)療行業(yè)帶來(lái)了革命性的變革和巨大的潛力。

根據(jù)麥肯錫咨詢(xún)的數(shù)據(jù)，AI每年可以創(chuàng)造3.5萬(wàn)億至5.8萬(wàn)億美元的商業(yè)價(jià)值。預(yù)計(jì)到2025年，全球AI應(yīng)用市場(chǎng)總值將達(dá)到1270億美元，其中AI醫(yī)療占據(jù)1/5的份額，處于高速成長(zhǎng)階段。

知名市場(chǎng)調(diào)研公司ReportLinker此前針對(duì)全球醫(yī)療保健AI市場(chǎng)的年度報(bào)告曾預(yù)測(cè)，全球醫(yī)療保健AI市場(chǎng)規(guī)模將從2023年的146億美元增長(zhǎng)到2028年的1027億美元，期間復(fù)合年增長(zhǎng)率為47.6%。

中國(guó)AI產(chǎn)業(yè)發(fā)展迅速，自2019年以來(lái)，AI醫(yī)療以40%～60%的增速快速發(fā)展，中國(guó)的AI醫(yī)療核心軟件市場(chǎng)規(guī)模已接近30億元，并且還有重資產(chǎn)性質(zhì)的AI醫(yī)療機(jī)器人，總體規(guī)模接近60億元。

中泰證券在一份研報(bào)中指出，AI+醫(yī)療/醫(yī)藥未來(lái)空間廣闊，當(dāng)下值得重點(diǎn)關(guān)注。該研報(bào)指出，AI病理、AI影像和AI制藥均是未來(lái)可能的應(yīng)用領(lǐng)域。

中泰證券認(rèn)為，傳統(tǒng)病理診斷方法主要依靠人工閱片分析提供依據(jù)，自動(dòng)化程度低，耗時(shí)長(zhǎng)效率低，且診斷正確與否比較依賴(lài)醫(yī)生閱片經(jīng)驗(yàn)以及主觀判斷；另一方面病理醫(yī)生培養(yǎng)周期長(zhǎng)，從業(yè)門(mén)檻高，地域資源分布不均勻，供需極度不平衡，影響了行業(yè)整體的發(fā)展節(jié)奏。相比于傳統(tǒng)的病理診斷，AI輔助有望提升閱片速度、提高診斷精準(zhǔn)度，加速市場(chǎng)擴(kuò)容，是未來(lái)的行業(yè)趨勢(shì)。

圖片來(lái)源：中泰證券

“近年來(lái)，AI病理領(lǐng)域的監(jiān)管條例、審核標(biāo)準(zhǔn)逐漸規(guī)范，技術(shù)應(yīng)用越發(fā)成熟，我們預(yù)計(jì) 2023年首批AI病理診斷三類(lèi)證有望獲批，行業(yè)有望率先在細(xì)胞病理領(lǐng)域迎來(lái)商業(yè)化拐點(diǎn)，當(dāng)前正是布局的最佳時(shí)點(diǎn)，技術(shù)積累深厚，入院能力強(qiáng)的頭部玩家占據(jù)明顯優(yōu)勢(shì)，有望帶動(dòng)產(chǎn)品加速商業(yè)化放量。”中泰證券分析師在上述研報(bào)中寫(xiě)道。

封面圖片來(lái)源：視覺(jué)中國(guó)-VCG111424718601

如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

Ai 醫(yī)療谷歌人工智能

上一篇文章

新三板創(chuàng)新層公司凱盛家紡新增著作權(quán)信息：“畫(huà)韻”

返回每經(jīng)網(wǎng)首頁(yè)

下一篇文章

新三板創(chuàng)新層公司凱盛家紡新增著作權(quán)信息：“奢婭時(shí)尚款”

相關(guān)文章

熱文精選

點(diǎn)擊排行

歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

每經(jīng)經(jīng)濟(jì)新聞官方APP

關(guān)注我們
辟謠專(zhuān)區(qū)

加入我們
招聘專(zhuān)頁(yè)

Copyright ? 2025 每日經(jīng)濟(jì)新聞報(bào)社版權(quán)所有，未經(jīng)許可不得轉(zhuǎn)載使用，違者必究。

廣告熱線? 北京: 010-57613265，?上海: 021-61283008，?廣州: 020-84201861，?深圳: 0755-83520159，?成都: 028-86512112

網(wǎng)絡(luò)社會(huì)征信網(wǎng)

兒童色情信息舉報(bào)專(zhuān)區(qū)

成都市互聯(lián)網(wǎng)不良與違法信息舉報(bào)中心

四川省互聯(lián)網(wǎng)舉報(bào)中心

中國(guó)互聯(lián)網(wǎng)舉報(bào)中心

每日經(jīng)濟(jì)新聞互聯(lián)網(wǎng)不良與違法信息舉報(bào)中心

互聯(lián)網(wǎng)新聞信息服務(wù)許可證：51120190017 網(wǎng)站備案號(hào)：蜀ICP備19004508號(hào)-3 川公網(wǎng)安備 51019002002026號(hào)

新聞職業(yè)道德監(jiān)督熱線：400 889 0008 郵箱：zbb@nbd.com.cn

免费va国产高清不卡大片,笑看风云电视剧,亚洲黄色性爱在线观看,成人在线免费