對21個大型語言模型研究表明：AI尚不具備獨(dú)立臨床診療的能力

2026-04-14 14:52:50: 來源：科技日報(bào)　作者：張佳欣
分享到：

盡管人工智能（AI）在醫(yī)療領(lǐng)域的應(yīng)用日益增多，但其“像醫(yī)生一樣思考”的能力仍存在明顯短板。由美國麻省總醫(yī)院MESH孵化器團(tuán)隊(duì)開展的一項(xiàng)最新研究發(fā)現(xiàn)，生成式AI在臨床推理關(guān)鍵環(huán)節(jié)仍顯不足，尚不具備獨(dú)立承擔(dān)臨床診療任務(wù)的能力。相關(guān)成果發(fā)表在最新一期《JAMA Network Open》上。

團(tuán)隊(duì)選取包括ChatGPT、DeepSeek、Claude、Gemini和Grok在內(nèi)的21種大語言模型，在29個已發(fā)表的臨床病例中進(jìn)行測試，并通過逐步提供患者信息（從基本癥狀到實(shí)驗(yàn)室和影像結(jié)果）來模擬真實(shí)診療過程。結(jié)果顯示，當(dāng)獲得完整信息時，所有模型在超過90%的案例中能給出正確的最終診斷。

然而，在關(guān)鍵的早期診斷階段，這些模型普遍表現(xiàn)欠佳。研究發(fā)現(xiàn)，超過80%的情況下，模型未能提出合理的“鑒別診斷”，即對多種可能疾病進(jìn)行系統(tǒng)性分析與篩選。這一能力被認(rèn)為是臨床推理的核心，也是醫(yī)生決策的重要基礎(chǔ)。

為更全面評估模型能力，團(tuán)隊(duì)提出了一種名為PrIME-LLM的新指標(biāo)，從提出潛在診斷、選擇檢查手段、給出最終診斷到制定治療方案等多個環(huán)節(jié)對模型進(jìn)行綜合評價。結(jié)果顯示，各模型整體評分在64%至78%之間，表現(xiàn)存在明顯差異。

團(tuán)隊(duì)指出，大語言模型更擅長在信息完備的情況下“給出答案”，但在信息不充分、需要開放性推理的情境中表現(xiàn)較弱。隨著實(shí)驗(yàn)室數(shù)據(jù)和影像資料的加入，模型表現(xiàn)有所提升，且新一代模型整體優(yōu)于舊版本，表明相關(guān)技術(shù)正在持續(xù)改進(jìn)。

團(tuán)隊(duì)表示，當(dāng)前大語言模型尚不適合在缺乏監(jiān)督的情況下直接用于臨床實(shí)踐，其價值更在于輔助醫(yī)生決策，而非取而代之。

編輯：韓夢晨

相關(guān)閱讀：

版權(quán)與免責(zé)聲明:
①凡本站注明稿件來源為：中國高新技術(shù)產(chǎn)業(yè)導(dǎo)報(bào)、中國高新網(wǎng)、中高新傳媒的所有文字、圖片和音視頻稿件，版權(quán)均屬本網(wǎng)所有，任何媒體、網(wǎng)站或個人未經(jīng)本網(wǎng)協(xié)議授權(quán)不得轉(zhuǎn)載、鏈接、轉(zhuǎn)貼或以其他方式復(fù)制發(fā)表。已經(jīng)本網(wǎng)授權(quán)使用作品的，被授權(quán)人應(yīng)在授權(quán)范圍內(nèi)使用，并注明“來源：中國高新網(wǎng)、中高新傳媒或者中國高新技術(shù)產(chǎn)業(yè)導(dǎo)報(bào)”。違反上述聲明者，本網(wǎng)將追究其相關(guān)法律責(zé)任。
② 任何單位或個人認(rèn)為本網(wǎng)站或本網(wǎng)站鏈接內(nèi)容可能涉嫌侵犯其合法權(quán)益，應(yīng)該及時向本網(wǎng)站書面反饋，并提供身份證明，權(quán)屬證明及詳細(xì)侵權(quán)情況證明，本網(wǎng)站在收到上述文件后，將會盡快移除被控侵權(quán)的內(nèi)容或鏈接。
③如因作品內(nèi)容、版權(quán)和其他問題需要與本網(wǎng)聯(lián)系的，請?jiān)谠撌掠砂l(fā)生之日起30日內(nèi)進(jìn)行。電話：010-68667266 電子郵件：zhangj#stdaily.com　(請將“#”換為“@”)

曰本a级毛片无卡免费视频va,偷窥国产亚洲女爱视频在线,黄色网站一级小妹,日韩无在线视频免费连接,18以上免费视频在线观看,日本a级视频在线播放,亚洲免费人体视频美女