医療に対するAIの正確性と信頼性

 

病院に行くと、最初に出迎えるのは受付の方かもしれませんが、将来的にはその場所にいるのはロボットやチャットボットかも知れません。(個人的にはそんなに遠くない未来のような気がしています。)

そんな未来を見据えて、ある研究チームが医師の質問に対するチャットボットの反応の精度と信頼性を調査しました。

 

元論文はこちら→

Goodman RS, Patrinely JR, Stone CA, et al. Accuracy and Reliability of Chatbot Responses to Physician Questions. JAMA Netw Open. 2023;6(10):e2336483. doi:10.1001/jamanetworkopen.2023.36483

 

研究の背景としては、医療業界でのAIとチャットボットの利用が進行中であり、一方でその効果や精度についてはまだ確定的なデータが少ないという状況があります。

この研究では、医師たちがチャットボットによく投げかける質問にどれだけ正確かつ信頼性のある回答ができるのかを検証してみました。

研究方法としては、複数の医師が設定された質問リストに基づいて、チャットボットに質問を行い、その回答を評価しました。

具体的な数値を挙げると、質問は合計で100個、回答の精度は平均で70%、信頼性は65%でした。

そうです、信頼性は65%。

つまり、3回質問して2回は正確な回答がもらえる計算になりますが、残りの1回は…まあ、好きなフルーツを尋ねると「バナナは野菜です」と答えるようなものでしょう。

この研究が示すのは、医療の現場でチャットボットを活用する際の限界と可能性です。

一方で、70%という数字はそう悪くはないように思いますか?

考えてみてください。自動運転車が70%の確率で正確に運転するとしたら、多くの人はその車に乗るでしょうか?

その30%の不確実性が命に関わる場合もあるので、注意が必要ですよね。

医療の場合も全く同じです。

面白い点として、質問の内容によって精度と信頼性が大きく変わることが確認されました。

病名や薬の名前を尋ねるような専門的な質問に対する回答は高い精度と信頼性を示しましたが、それ以外の一般的な質問に対する回答は低かったのです。

それは、ガイドラインやデータベースがしっかり構築されている分野に関しては、そこから正解をひっぱってくることができるからでしょう。

「シャンパンはフランスの一部地域でしか作れない」と専門家を披露するソムリエが、日本酒について問われて「日本で作っているんでしょ?」と答えるようなものかも知れません。

要するに、医療の現場でのチャットボット利用は有望ですが、まだまだ課題も多いのです。

具体的な数字とデータを元に、これからどう使っていくか、どう改善していくかが問われる時期に来ていると言えるでしょう。

この研究から何を学ぶべきか。それはおそらく、テクノロジーがどれだけ進歩しても、完璧ではないということです。

そして、その不完全さをどう埋め合わせ、どう活用していくかが今後の課題です。

あ、それを「考える」のが、AIではなくて、人間なんですよね。