讓 ChatGPT 考執醫，成績居然這麼好：碾壓 70% 醫生！復旦最新研究

111 閱讀 0 評論 0 點讚

本文作者：Origami

讓人工智能上臨床，你是不覺得還很遙遠：最多，也就做個導診、打個輔助吧。

然而就在本月，復旦大學和馬薩諸塞大學的一項預印本研究，讓 ChatGPT-4V 這個最新模型，參加瞭一場執醫考試，還得到瞭在所有考試中都呈碾壓式優秀表現的驚人結果。

——這碾壓 70% 醫學生的成績，可能讓很多即將成為醫生的醫學生直呼：「汗流浹背瞭老弟」。

參加執醫考試，竟碾壓瞭 70% 的醫學生

這篇在 medRxiv 預印版發表的論文，題為 Performance of Multimodal GPT-4V on USMLE with Image: Potential for Imaging Diagnostic Support with Explanations，研究團隊利用生成式多模態預訓練模型 GPT-4V (vision) ，探索瞭該模型在臨床考試中回答的準確性和解釋質量。

該研究主要測試的 AI 模型，是近兩年來最火熱的 Chat Generative Pre-trained Transformer（ChatGPT）的相關產品。

ChatGPT 甫一面世，就成為瞭不少學者、學生的輔助，甚至用它完成課題、論文。但 AI 的局限性也顯而易見——除瞭常常為人詬病的認知以外，隻能讀取和生成文本，還有無法處理如圖像等其他數據模式的局限性。

而最新的 GPT-4V 卻有所不同，它具有視覺處理/理解能力。既然如此，GPT-4V 是否有介入臨床，分析醫學圖像的能力呢？

為瞭回答這個問題，研究者們決定讓這些 AI 參加一次執醫考試，並回答每道題的答題思路、做出解釋。

該研究使用的執醫考試題型十分全面，涉及不同醫學領域，且難度各異。研究使用來自美國醫學執照考試（USMLE）、醫學生考試題庫（AMBOSS）和診斷放射學資格核心考試（DRQCE）的三套共計 226 道選擇題（28 個醫學領域）來考 GPT-4V、GPT-4 和 ChatGPT。

值得註意的是，考試題目均包含有圖像內容。

通過圖像附加上下文（即患者信息）和問題，研究者將多項選擇提供給 GPT-4V。對於無法分析圖像的 ChatGPT 與 GPT-4，則采用省略圖像的單純問答形式（如下圖）。

圖源：文獻 1

此外，研究者們讓醫療專業人士評估 GPT-4V 的解釋是否違背醫學常識，並在 GPT-4V 做錯時收集反饋、進一步訓練。

結果顯示，GPT-4V 在所有考試中都表現出碾壓式的優秀表現。

對於 USMLE 樣題的所有試題（包括無圖像的試題），GPT-4V 在 Step1、Step2 和 Step3 中的準確率分別為 88.2%、90.8%、92.7%，遠遠高於 ChatGPT 和 GPT-4。

在帶有圖像的醫學執照考試題上，GPT-4V 也表現出瞭很高的準確率。研究者估算，與準備考試的學生相比 GPT-4V 的大致排名能達到前 20～30% 的水平。

圖源：文獻 1

接著針對 AMBOSS，研究進一步將試題按難易程度分為 1～5 級，分別代表學生在第一次作答時最容易答對的 20%、20～50%、50～80%、80～95% 和 95～100% 的試題。

此時讓醫療專業人士為 AI 做難度提示。GPT-4V 難度提示下準確率為 86%，不提示為 63%。隨著難度增加，不給提示時 GPT-4V 表現變差，而提示時則下降並不明顯。

但無論有沒有提示，GPT-4V 的準確性總體上都優於醫學生，並且題越難，優勢越明顯。

圖源：文獻 1

接著，研究者進一步評估用戶對 GPT-4V 生成的解釋，和專傢人工解釋的評價。結果，當 GPT-4V 正確回答時，生成的解釋質量與專傢的接近，甚至還會根據信息的有無，產生自己的判斷。

例如對於第一張圖中的考題，因為細菌性肺炎和肺栓塞都有咳嗽等癥狀，超 70% 的學生第一次都回答錯誤。而 GPT-4V 則正確地解釋瞭帶有漢普頓駝峰放射學征象的影像結果，側重懷疑肺梗塞。

而當研究者去掉圖像這一信息，再次提問時，GPT-4V 則在保留肺栓塞懷疑的同時，將答案切換為細菌性肺炎。

這種變化證明瞭 GPT-4V 確實是通過吸納影像結果的分析，來回答這個問題。

而研究中對一高血壓病例的提問也佐證瞭，GPT-4V 能夠根據 CT 掃描圖像、化驗單和病人癥狀等其他信息，提供鑒別診斷和後續檢查的建議。

進化版 ChatGPT，能讓醫生失業嗎？

由這項研究可見，GPT-4V 在帶有圖像的醫學執照考試題上，展現瞭非凡的準確率，在臨床決策支持方面似也具備無窮的潛力。而這種優勢，在某種程度上對於未來的醫生而言，可能不僅是輔助，確有可能達到取而代之的地位。

畢竟一個優秀醫生的培養周期是以數年為單位的，而大數據團隊對於 AI 工具的喂養可能僅要數月。

也許很多人會想問：不久的將來，醫生是否會像曾經的接線員、打字員、電報員一樣，被科技發展所迭代徹底失去飯碗呢？

首先，根據這篇文獻的解釋，這種憂慮似乎為時尚早。

GPT-4V 回答錯誤並不罕見，而且此時生成的解釋質量很差。

本研究中，圖像誤解依然是回答錯誤的主要原因，占到 76.3%，隻有 10 個（18.2%）錯誤歸因於文本誤解。顯而易見，即便是 GPT-4V，處理圖像的能力還是遠遠落後於文本。

圖源：文獻 1

此外，GPT-4V 傾向於產生事實上不準確的響應，這也是目前 AI 工具的通病，仍然需要額外的醫生審查才能保證可靠性。

其次，在實際的應用中，AI 的適配性也將面臨長期的挑戰。

英國林肯郡 NHS 系統醫生史蒂夫表示，在英國的診療系統中，對於 AI 的使用一直保持著謹慎態度：「一方面我們的工作得益於 AI 工具產生的高效，一方面我們也憂慮著 AI 是否會造成數據泄露的風險。」

遼寧省某三甲醫院醫務科負責人陳良則認為：臨床診療是一個繁瑣的過程，從問診治療到康復隨訪，AI 的作用可能會在一個環節上發揮奇效，但並不是在每一個環節都有著顛覆性的作用。

「說句不好聽的，如果 AI 真的取代瞭醫生，萬一出現醫療事故，我們追責是追究誰呢？是 AI 醫生嗎？還是說 AI 背後的工程師和設計者呢？」

策劃：雲也｜監制：carollero

參考資料

[1]https://www.medrxiv.org/content/10.1101/2023.10.26.23297629v3.full

點讚(0) 打賞

本文分类：健康
本文标签：圖像醫生醫學醫學生研究者肺炎圖源放射學信息細菌性文獻試題學生大學設計者病例數據文本復旦系統錯誤模態征象醫院醫務科專傢問題醫療評價團隊病人英國史蒂夫全面道題課題視覺時則進化版地位電報顛覆性汗流浹背考試題答題論文理解能力變差建議取而代之接線員環節思路馬薩諸塞復旦大學工具結果遼寧省局限性駝峰漢普頓陳良作者負責人總體準確性模式專業人士質量方面癥狀決策潛力化驗單無法利
浏览次数：111 次瀏覽
发布日期：2023-11-27 20:14:38
本文链接：https://shuohk.com/cms/jiankang/83681.html

讓 ChatGPT 考執醫，成績居然這麼好：碾壓 70% 醫生！復旦最新研究

评论列表共有 0 條評論

發表評論取消回复

讓 ChatGPT 考執醫，成績居然這麼好：碾壓 70% 醫生！復旦最新研究

百萬粉絲博主拆解華為Mate 70 RS：麒麟9020更大更厚 手機內部做成瞭藝術品

柯文哲支持度“自由落體式”下跌，戴立安：對民眾黨影響很大

“省省”的平安傢醫，如何成為中國傢庭健康守門人？

中國電信“天翼”AI手機發佈：聯合高通、中興研發，端側3B模型

评论列表 共有 0 條評論

發表評論 取消回复

百萬粉絲博主拆解華為Mate 70 RS：麒麟9020更大更厚手機內部做成瞭藝術品

评论列表共有 0 條評論

發表評論取消回复