你在網(wǎng)上搜過“我哪哪疼是不是得了啥啥病”嗎?答案可能不盡如人意。但隨著ChatGPT等大型自然語言模型(LLM)風(fēng)生水起,人們開始嘗試用它來回答醫(yī)學(xué)問題或醫(yī)學(xué)知識。
不過,靠譜嗎?
就其本身而言,人工智能(AI)給出的答案是準(zhǔn)確的。但英國巴斯大學(xué)教授詹姆斯·達(dá)文波特指出了醫(yī)學(xué)問題和實(shí)際行醫(yī)之間的區(qū)別,他認(rèn)為“行醫(yī)并不只是回答醫(yī)學(xué)問題,如果純粹是回答醫(yī)學(xué)問題,我們就不需要教學(xué)醫(yī)院,醫(yī)生也不需要在學(xué)術(shù)課程之后接受多年的培訓(xùn)了?!?/p>
鑒于種種疑惑,在《自然》雜志新近發(fā)表的一篇論文中,全球頂尖的人工智能專家們展示了一個基準(zhǔn),用于評估大型自然語言模型能多好地解決人們的醫(yī)學(xué)問題。
現(xiàn)有的模型尚不完善
最新的這項(xiàng)評估,來自谷歌研究院和深度思維公司。專家們認(rèn)為,人工智能模型在醫(yī)學(xué)領(lǐng)域有許多潛力,包括知識檢索和支持臨床決策。但現(xiàn)有的模型尚不完善,例如可能會編造令人信服的醫(yī)療錯誤信息,或納入偏見加劇健康不平等。因此才需要對其臨床知識進(jìn)行評估。
相關(guān)的評估此前并非沒有。然而,過去通常依賴有限基準(zhǔn)的自動化評估,例如個別醫(yī)療測試得分。這轉(zhuǎn)化到真實(shí)世界中,可靠性和價值都有欠缺。
而且,當(dāng)人們轉(zhuǎn)向互聯(lián)網(wǎng)獲取醫(yī)療信息時,他們會遭遇“信息超載”,然后從10種可能的診斷中選擇出最壞的一種,從而承受很多不必要的壓力。
研究團(tuán)隊希望語言模型能提供簡短的專家意見,不帶偏見、表明其引用來源,并合理表達(dá)出不確定性。
5400億參數(shù)的LLM表現(xiàn)如何
為評估LLM編碼臨床知識的能力,谷歌研究院的專家謝庫菲·阿齊茲及其同事探討了它們回答醫(yī)學(xué)問題的能力。團(tuán)隊提出了一個基準(zhǔn),稱為“MultiMedQA”:它結(jié)合了6個涵蓋專業(yè)醫(yī)療、研究和消費(fèi)者查詢的現(xiàn)有問題回答數(shù)據(jù)集以及“HealthSearchQA”——這是一個新的數(shù)據(jù)集,包含3173個在線搜索的醫(yī)學(xué)問題。
團(tuán)隊隨后評估了PaLM(一個5400億參數(shù)的LLM)及其變體Flan-PaLM。他們發(fā)現(xiàn),在一些數(shù)據(jù)集中Flan-PaLM達(dá)到了最先進(jìn)水平。在整合美國醫(yī)師執(zhí)照考試類問題的MedQA數(shù)據(jù)集中,Flan-PaLM超過此前最先進(jìn)的LLM達(dá)17%。
不過,雖然Flan-PaLM的多選題成績優(yōu)良,進(jìn)一步評估顯示,它在回答消費(fèi)者的醫(yī)療問題方面存在差距。
專精醫(yī)學(xué)的LLM令人鼓舞
為解決這一問題,人工智能專家們使用一種稱為設(shè)計指令微調(diào)的方式,進(jìn)一步調(diào)試Flan-PaLM適應(yīng)醫(yī)學(xué)領(lǐng)域。同時,研究人員介紹了一個專精醫(yī)學(xué)領(lǐng)域的LLM——Med-PaLM。
設(shè)計指令微調(diào)是讓通用LLM適用新的專業(yè)領(lǐng)域的一種有效方法。產(chǎn)生的模型Med-PaLM在試行評估中表現(xiàn)令人鼓舞。例如,Flan-PaLM被一組醫(yī)師評分與科學(xué)共識一致程度僅61.9%的長回答,Med-PaLM的回答評分為92.6%,相當(dāng)于醫(yī)師作出的回答(92.9%)。同樣,Flan-PaLM有29.7%的回答被評為可能導(dǎo)致有害結(jié)果,Med-PaLM僅5.8%,相當(dāng)于醫(yī)師所作的回答(6.5%)。
研究團(tuán)隊提到,結(jié)果雖然很有前景,但有必要作進(jìn)一步評估,特別是在涉及安全性、公平性和偏見方面。
換句話說,在LLM的臨床應(yīng)用可行之前,還有許多限制要克服。
◎本報記者 張夢然
相關(guān)稿件