本文作者:Origami
讓人工智能上臨床,你是不覺得還很遙遠:最多,也就做個導診、打個輔助吧。
然而就在本月,復旦大學和馬薩諸塞大學的一項預印本研究,讓 ChatGPT-4V 這個最新模型,參加瞭一場執醫考試,還得到瞭在所有考試中都呈碾壓式優秀表現的驚人結果。
——這碾壓 70% 醫學生的成績,可能讓很多即將成為醫生的醫學生直呼:「汗流浹背瞭老弟」。
參加執醫考試,竟碾壓瞭 70% 的醫學生
這篇在 medRxiv 預印版發表的論文,題為 Performance of Multimodal GPT-4V on USMLE with Image: Potential for Imaging Diagnostic Support with Explanations,研究團隊利用生成式多模態預訓練模型 GPT-4V (vision) ,探索瞭該模型在臨床考試中回答的準確性和解釋質量。
該研究主要測試的 AI 模型,是近兩年來最火熱的 Chat Generative Pre-trained Transformer(ChatGPT)的相關產品。
ChatGPT 甫一面世,就成為瞭不少學者、學生的輔助,甚至用它完成課題、論文。但 AI 的局限性也顯而易見——除瞭常常為人詬病的認知以外,隻能讀取和生成文本,還有無法處理如圖像等其他數據模式的局限性。
而最新的 GPT-4V 卻有所不同,它具有視覺處理/理解能力。既然如此,GPT-4V 是否有介入臨床,分析醫學圖像的能力呢?
為瞭回答這個問題,研究者們決定讓這些 AI 參加一次執醫考試,並回答每道題的答題思路、做出解釋。
該研究使用的執醫考試題型十分全面,涉及不同醫學領域,且難度各異。研究使用來自美國醫學執照考試(USMLE)、醫學生考試題庫(AMBOSS)和診斷放射學資格核心考試(DRQCE)的三套共計 226 道選擇題(28 個醫學領域)來考 GPT-4V、GPT-4 和 ChatGPT。
值得註意的是,考試題目均包含有圖像內容。
通過圖像附加上下文(即患者信息)和問題,研究者將多項選擇提供給 GPT-4V。對於無法分析圖像的 ChatGPT 與 GPT-4,則采用省略圖像的單純問答形式(如下圖)。
圖源:文獻 1
此外,研究者們讓醫療專業人士評估 GPT-4V 的解釋是否違背醫學常識,並在 GPT-4V 做錯時收集反饋、進一步訓練。
結果顯示,GPT-4V 在所有考試中都表現出碾壓式的優秀表現。
對於 USMLE 樣題的所有試題(包括無圖像的試題),GPT-4V 在 Step1、Step2 和 Step3 中的準確率分別為 88.2%、90.8%、92.7%,遠遠高於 ChatGPT 和 GPT-4。
在帶有圖像的醫學執照考試題上,GPT-4V 也表現出瞭很高的準確率。研究者估算,與準備考試的學生相比 GPT-4V 的大致排名能達到前 20~30% 的水平。
圖源:文獻 1
接著針對 AMBOSS,研究進一步將試題按難易程度分為 1~5 級,分別代表學生在第一次作答時最容易答對的 20%、20~50%、50~80%、80~95% 和 95~100% 的試題。
此時讓醫療專業人士為 AI 做難度提示。GPT-4V 難度提示下準確率為 86%,不提示為 63%。隨著難度增加,不給提示時 GPT-4V 表現變差,而提示時則下降並不明顯。
但無論有沒有提示,GPT-4V 的準確性總體上都優於醫學生,並且題越難,優勢越明顯。
圖源:文獻 1
接著,研究者進一步評估用戶對 GPT-4V 生成的解釋,和專傢人工解釋的評價。結果,當 GPT-4V 正確回答時,生成的解釋質量與專傢的接近,甚至還會根據信息的有無,產生自己的判斷。
例如對於第一張圖中的考題,因為細菌性肺炎和肺栓塞都有咳嗽等癥狀,超 70% 的學生第一次都回答錯誤。而 GPT-4V 則正確地解釋瞭帶有漢普頓駝峰放射學征象的影像結果,側重懷疑肺梗塞。
而當研究者去掉圖像這一信息,再次提問時,GPT-4V 則在保留肺栓塞懷疑的同時,將答案切換為細菌性肺炎。
這種變化證明瞭 GPT-4V 確實是通過吸納影像結果的分析,來回答這個問題。
而研究中對一高血壓病例的提問也佐證瞭,GPT-4V 能夠根據 CT 掃描圖像、化驗單和病人癥狀等其他信息,提供鑒別診斷和後續檢查的建議。
進化版 ChatGPT,能讓醫生失業嗎?
由這項研究可見,GPT-4V 在帶有圖像的醫學執照考試題上,展現瞭非凡的準確率,在臨床決策支持方面似也具備無窮的潛力。而這種優勢,在某種程度上對於未來的醫生而言,可能不僅是輔助,確有可能達到取而代之的地位。
畢竟一個優秀醫生的培養周期是以數年為單位的,而大數據團隊對於 AI 工具的喂養可能僅要數月。
也許很多人會想問:不久的將來,醫生是否會像曾經的接線員、打字員、電報員一樣,被科技發展所迭代徹底失去飯碗呢?
首先,根據這篇文獻的解釋,這種憂慮似乎為時尚早。
GPT-4V 回答錯誤並不罕見,而且此時生成的解釋質量很差。
本研究中,圖像誤解依然是回答錯誤的主要原因,占到 76.3%,隻有 10 個(18.2%)錯誤歸因於文本誤解。顯而易見,即便是 GPT-4V,處理圖像的能力還是遠遠落後於文本。
圖源:文獻 1
此外,GPT-4V 傾向於產生事實上不準確的響應,這也是目前 AI 工具的通病,仍然需要額外的醫生審查才能保證可靠性。
其次,在實際的應用中,AI 的適配性也將面臨長期的挑戰。
英國林肯郡 NHS 系統醫生史蒂夫表示,在英國的診療系統中,對於 AI 的使用一直保持著謹慎態度:「一方面我們的工作得益於 AI 工具產生的高效,一方面我們也憂慮著 AI 是否會造成數據泄露的風險。」
遼寧省某三甲醫院醫務科負責人陳良則認為:臨床診療是一個繁瑣的過程,從問診治療到康復隨訪,AI 的作用可能會在一個環節上發揮奇效,但並不是在每一個環節都有著顛覆性的作用。
「說句不好聽的,如果 AI 真的取代瞭醫生,萬一出現醫療事故,我們追責是追究誰呢?是 AI 醫生嗎?還是說 AI 背後的工程師和設計者呢?」
策劃:雲也|監制:carollero
參考資料
[1]https://www.medrxiv.org/content/10.1101/2023.10.26.23297629v3.full
發表評論 取消回复