AI看病遇上真人會“掉鏈子”

2026-02-10 10:02:37: 來源：科技日報　作者：張夢然
分享到：

當大語言模型在醫(yī)師資格考試中都能取得高分時，人們曾期待它能成為貼身的“AI健康助手”。然而《自然·醫(yī)學》發(fā)表的一項在英國開展的研究表明，這些實驗室里的“優(yōu)等生”在面對真實用戶時，表現(xiàn)卻有可能意外“掉鏈子”——它們協(xié)助普通人作健康決策的效果，并未超越傳統(tǒng)搜索引擎。這項發(fā)現(xiàn)為當前火熱的AI醫(yī)療應用，敲響了一記科學的警鐘：人們會不會高估了當前大語言模型輔助普通人作健康決策的能力？

當前全球醫(yī)療體系正嘗試將大語言模型打造為公眾的“第一道健康防線”，幫助人們在就診前進行自我評估與管理。然而，該研究揭示了一個關鍵落差：在標準測試中表現(xiàn)優(yōu)異的AI模型，一旦面對真實場景中的普通人，其表現(xiàn)可能大打折扣。

科學家設計了一個貼近生活的實驗：邀請近1300名英國參與者，模擬應對感冒、貧血、膽結石等十種常見健康場景，并決定該采取何種行動——是撥打急救電話，還是預約家庭醫(yī)生。參與者被隨機分配使用三種主流大語言模型（GPT-4o、Llama3或Command R+）之一，或使用傳統(tǒng)搜索引擎作為對照。

結果出現(xiàn)了有趣的“人機鴻溝”：當不用人類受試者進行測試時，AI表現(xiàn)非常出色，平均能識別94.9%的疾病，并在超過半數(shù)情況下給出恰當建議。但當普通人使用相同模型時，疾病識別率驟降至不足35%，行動建議準確率也低于45%，甚至未顯著優(yōu)于傳統(tǒng)搜索引擎。

科學家進一步分析對話記錄，發(fā)現(xiàn)了兩組典型的“溝通盲區(qū)”：普通人往往難以準確、完整地描述癥狀，而AI偶爾也會生成看似合理實則具有誤導性的回應。這種雙向的信息偏差，讓原本在測試中表現(xiàn)優(yōu)秀的模型在實際應用中打了折扣。

這也表明，當前的大語言模型若直接應用于公眾健康咨詢?nèi)孕柚斏鳎驗樵谡鎸嵉娜藱C互動中，存在大量實驗室測試無法預測的復雜性。AI醫(yī)療助手的發(fā)展不僅需要技術迭代，更需要深入理解：當健康遇到焦慮，當專業(yè)術語遇到日常表達時，人與機器該如何更好地“對話”。

編輯：韓夢晨

相關閱讀：

版權與免責聲明:
①凡本站注明稿件來源為：中國高新技術產(chǎn)業(yè)導報、中國高新網(wǎng)、中高新傳媒的所有文字、圖片和音視頻稿件，版權均屬本網(wǎng)所有，任何媒體、網(wǎng)站或個人未經(jīng)本網(wǎng)協(xié)議授權不得轉(zhuǎn)載、鏈接、轉(zhuǎn)貼或以其他方式復制發(fā)表。已經(jīng)本網(wǎng)授權使用作品的，被授權人應在授權范圍內(nèi)使用，并注明“來源：中國高新網(wǎng)、中高新傳媒或者中國高新技術產(chǎn)業(yè)導報”。違反上述聲明者，本網(wǎng)將追究其相關法律責任。
② 任何單位或個人認為本網(wǎng)站或本網(wǎng)站鏈接內(nèi)容可能涉嫌侵犯其合法權益，應該及時向本網(wǎng)站書面反饋，并提供身份證明，權屬證明及詳細侵權情況證明，本網(wǎng)站在收到上述文件后，將會盡快移除被控侵權的內(nèi)容或鏈接。
③如因作品內(nèi)容、版權和其他問題需要與本網(wǎng)聯(lián)系的，請在該事由發(fā)生之日起30日內(nèi)進行。電話：010-68667266 電子郵件：zhangj#stdaily.com　(請將“#”換為“@”)

曰本a级毛片无卡免费视频va,偷窥国产亚洲女爱视频在线,黄色网站一级小妹,日韩无在线视频免费连接,18以上免费视频在线观看,日本a级视频在线播放,亚洲免费人体视频美女