診断の糸口を見つけるために、医師は患者一人ひとりの症状を聞き取り、身体所見をとり、検査を重ねて証拠集めを丁寧に行っていきます。
その様子は、まるで探偵のようでもあります。
昔から探偵にはワトソン君のような相棒が必要です。
最近、特に期待されているのが、OpenAIが開発したGPT-4のような大規模言語モデル(LLM)です。
このテクノロジーは、医療分野に革新をもたらすかもしれないと言われています。
今日は、そんな希望についてお話ししましょう。
2023年の夏、マサチューセッツ州ボストンにある2つの学術医療センターで、興味深い研究が行われました。
内科レジデントと主治医たちは、臨床推論能力の試験に参加しました。
彼らは、20の臨床ケースに基づいて、問題表現と鑑別診断を行いました。
「問題表現」とは、患者の症状や臨床データを分析し、その結果を簡潔にまとめた表現のことを指します。
言い換えると、「患者の健康状態の要約」や「症状の要点を整理した説明」ということです。
医師が患者の診断を効率的に進め、適切な治療方針を立てるために、この「問題表現」が重要な役割を果たします。
そして、同じ課題はGPT-4にも与えられました。
この研究の目的は、LLMが臨床データを問題表現にどのように統合できるかを探ることでした。
R-IDEAスコア、すなわち臨床推論文書化の4つの核心領域を評価する検証済み尺度を用いて、その能力が測定されました。
GPT-4は、主治医やレジデントを上回るスコアを獲得してしまいました。
特に、GPT-4のR-IDEAスコアの中央値は10(9-10)で、主治医が9(6-10)、レジデントが8(4-9)でした。
このデータは、GPT-4が臨床推論において人間の医師と同等、あるいはそれ以上の能力を持っていることを示しています。
しかし、全てが完璧というわけではありませんでした。
GPT-4は、診断の正確さや正しい臨床推論においては医師と同等でしたが、誤った臨床推論の事例がレジデントよりも多く見られたのでした。
この研究は、LLMは医師の代わりではなく、新たな「パートナー」として、診断と治療のプロセスを助けることができるかも知れないという可能性を示しています。
かなり賢いワトソン君の役割です。
臨床現場では、医師一人ひとりの経験、知識、直感が患者の命を救います。
GPT-4のような技術が加わることで、医師はさらに多くの情報を持って臨床判断を下すことができるようになるでしょう。
もちろん、このテクノロジーの導入には慎重な評価と、倫理的な配慮が必要ですが、その可能性は計り知れません。
未来の医療現場では、医師とAIが協力しながら、患者一人ひとりに最適な治療を提供していく風景が描かれるかもしれません。
元論文:
Cabral S, Restrepo D, Kanjee Z, et al. Clinical Reasoning of a Generative Artificial Intelligence Model Compared With Physicians. JAMA Intern Med. Published online April 1, 2024. doi:10.1001/jamainternmed.2024.0295