診察室で「わかりません」と言わざるを得ない場面は、思った以上に気力を使います。
沈黙が続く。相手の視線が集まる。
そこで耐えられなくなって、もっともらしい言葉をつい口走ってしまう。
多くの医師が、一度や二度ではなく、何度も経験してきた場面です。
今回紹介する論文が掲載されたのは、お馴染みのBMJのクリスマス特集号でした。
研究者からの信頼が厚いBMJですが、毎年クリスマスの時期になると、内容こそ真面目ですがユーモアに富んだ論文が掲載されます。
そのテーマは「医師のもっともらしい発言と、LLMが生み出すhallucination(信憑性はあるが事実ではない文章)は、構造的によく似ている」です。
どちらも嘘をつく気はありません。
ただし、「何かを返せ」「答え続けろ」という圧力の下に置かれている。
医師は沈黙より説明を、AIは拒否より出力を選ばされる。
その結果、確信に満ちた口調が育ちやすくなる、という指摘です。
背景には、報酬の構造があります。
臨床の現場では、即答や断言が有能さとして評価されがちで、研修の過程でそうした話し方が身についていきます。
一方、LLMは人間評価による強化学習によって、「役に立ちそうに見える答え」が点数を稼ぐ仕組みを持っています。
確信度を下げたり、答えを保留したりする能力は育ちにくい。
医師とAIは違う世界にいながら、同じ方向に背中を押されている、と著者らは述べます。
テーマの性質上、統計を扱うタイプの研究ではありません。
回診でのやり取り、診察室での説明、学会発表での言い切り方といった、ごく日常的な医療の場面が素材になっています。
そこに、LLMがどのような言葉を学び、どんな評価で強化されていくのかという仕組み、さらに論文出版の競争や電子カルテの書き方といった背景を重ねていきました。
「根拠は十分でないが、専門家として何かを答えなければならない」という状況は、経験の浅い医師ほど耳が痛いはずです。
判断材料がまだ手元になく、沈黙する勇気も持てない。
結果として、それらしい言葉を差し出してしまう。
私自身も、若い頃に何度もそうしてきました。
振り返ると、少し苦い記憶です。
ただ、経験を重ねるにつれて、状況は少しずつ変わってきます。
「分からない」と言えるようになるのは、単に知識が増えたからではありません。
その問いが、自分の専門分野として答えるべきものなのか、それとも答えなくてよい問いなのか、その切り分けができるようになるからです。
「分からないこと」よりも、「分からないのが当然の問題だ」と判断できるようになる。
その感覚は、時間と失敗を通じてしか身につきません。
この視点に立つと、論文が並べた医師の断言とLLMのhallucinationは、同じものには見えなくなってきます。
AIは経験を積んでも、自分がどこに立っているのかを問い直すことができません。
一方、人間の医師は、場数を踏むなかで「答えない」という選択肢を身につけていく。
同じ構造の中に置かれていながら、その違いは次第に大きくなっていきます。
考察のキモはここにあります。
問題は、AIが賢くなりすぎたことではありません。
医療が長年、「確信の演技」を報酬にしてきた文化が、別の形で露わになっただけです。
だから解決策も単純ではない。
著者らは、医学教育で不確実性を認識する能力そのものを専門性として扱うこと、AIでは不確かな場面で答えを保留する設計を強め、人と機械を競わせずに組み合わせる必要性を示します。
正しさを装う速度を落とし、検証が追いつく余地を残す、という選択です。
この論文は、誤情報が何%減るかを約束しません。
その代わり、私たちの言葉の癖を正面から照らします。
診察室での一文、発表スライドの断定、電子カルテに残した便利すぎる表現。
その一つ一つが、巡り巡って別の口から返ってくる可能性がある。
BMJクリスマス号らしい軽やかさで始まりながら、読み終えたあとに残るのは、次に言葉を発するとき、ほんの一瞬だけ立ち止まる感覚があります。
参考文献:
Correa Soto R A, McCoy L G, Perdomo-Luna C, Ziegler J, Pino L E, Rico A et al. Parallel pressures: the common roots of doctor bullshit and large language model hallucinations BMJ 2025; 391 :r2570 doi:10.1136/bmj.r2570

紹介した論文の音声概要を、NotebookLMでポッドキャスト化してみました。あわせてお楽しみください。
