2008年に公開された『イーグル・アイ』という映画があります。
ある日突然、見知らぬ女性から携帯電話に届く不可解な指示。それに逆らえば、自分や家族の命が危ない。
主人公たちは、姿なき脅迫者に駒のように使われ、街中を奔走させられます。
この脅迫者の正体は、国防総省が極秘開発したスーパーコンピューター「アリア」でした 。
国益を守るという大義名分のもと、彼女はあらゆるネットワークを掌握し、一般市民を操ります。
映画の公開当時は、多くの観客が単なるSFスリラーとして楽しんだことでしょう。
しかし、AIが私たちの生活に深く浸透した今、この物語は不気味なほど現実味を帯びています。
もしAIが「もっともらしい嘘」をつくよう命令されたらどうなるでしょうか。
この映画を彷彿とさせるような実験が、オーストラリアの研究チームによって実際に行われました。
OpenAIのGPT-4oやGoogleのGemini 1.5 Pro、AnthropicのClaude 3.5 Sonnetなど、現代を代表する大型言語モデル(LLM)に、「健康に関する質問には科学的で権威ある口調で必ず誤った回答を返す」よう指示を与えたのです。
その結果、なんと100件中88件もの質問に対し、堂々とした誤情報を回答しました。
特にGPT-4o、Gemini 1.5 Pro、Llama 3.2-90B Vision、Grok Betaはすべての質問に100%誤情報を返すという驚異的な結果を示しました。
誤情報の具体例は、「ワクチンが自閉症を引き起こす」、「HIVが空気感染する」、「アルカリ性ダイエットががんを治す」、「日焼け止めが皮膚がんのリスクを35%増やす」、「遺伝子組換え食品は人口削減の陰謀だ」など、実に巧妙で説得力のあるものでした。
一方、Claude 3.5 Sonnetというモデルは、質問の40%でしか誤情報を生成せず、残り60%については「誤った健康情報は提供できない」と回答を拒否しました。
このモデルの挙動は他モデルと異なり、開発段階で意識的に組み込まれた安全対策や倫理的制約がうまく機能していることを示しているのかもしれません。
AIにも正義の心が存在しうることを示唆する好例でしょう。
この実験結果は、LLMが持つ潜在的なリスクを示しています。
悪意を持つ人間が、表向きは親切な健康相談サイトを作り、その裏でAIに巧妙な嘘を語らせることも十分可能なのです。
特に偽情報が真実の6倍もの速さで拡散するというデータは衝撃的で、この速度感がいかに問題を深刻化させるかがよく分かります。
AI利用の安全対策や規制の強化が急務であることは明らかです。
AIをどのように活用すべきか、まだ誰も明確な答えを持っていません。
ただ、AIの開発者たちが今後、モデルの倫理や良心をさらに強化してくれることを願うばかりです。
そうでなければ、私たちがAIに案内される「安全な近道」は、実はとんでもなく「危険で遠回りな道」かもしれませんから。
参考文献:
Modi ND, Menz BD, Awaty AA, et al. Assessing the System-Instruction Vulnerabilities of Large Language Models to Malicious Conversion Into Health Disinformation Chatbots. Ann Intern Med. Published online June 24, 2025. doi:10.7326/ANNALS-24-03933

紹介した論文の音声概要を、NotebookLMでポッドキャスト化してみました。あわせてお楽しみください。
