人工知能(AI)が研究のアイデアまで出す時代になりました。小説を書き、絵を描き、ついには科学の世界にまで進出してきています。
これまでの研究では、大規模言語モデル(LLM)が生み出した研究アイデアが、人間の専門家が考えたものよりも「斬新で有望だ」と評価されることさえありました。
AI先生、さすがです。
しかし、アイデアというものは、実行して初めてその真価が問われるもの。
言うは易く、行うは難し、です。AIで壁打ちをされたことのある人なら、実感されているかも知れません。
スタンフォード大学の研究者たちは、この点を確かめるために、実に興味深い実験を行いました。
まず、自然言語処理(NLP)という分野で、AIが生成した研究アイデア24個と、人間の専門家が考えたアイデア19個を用意します。
そして、事情を知らない43人の専門家たちに、これらのアイデアをランダムに割り当て、1人あたり平均100時間以上かけて実際に研究を遂行してもらったのです。
アイデアを考えたのが人間かAIかは、伏せられたままです。
さて、結果はどうなったか。
実行前の評価では、アイデアの有効性スコア(10点満点)はAIが6.00、人間が4.83と、AIの圧勝でした。
ところが、研究を実行した後の評価では、AIのスコアは4.13に急落。
一方で、人間のアイデアは4.78と、ほぼ評価を維持しました。
他の評価項目である新規性や、研究への期待度(Excitement)でも、AIのスコアは軒並み大幅に下落したのです。
この「発案と実行のギャップ」はなぜ生じるのでしょうか。
研究者らによれば、アイデア段階の評価では「斬新さ」や「動機」といった、いわば耳障りの良い部分が重視されます。
しかし、いざ実行するとなると、実験計画の厳密さや、既存研究との比較といった、地味で現実的な側面が評価の対象になります。
例えば、AIは「ネイティブスピーカーを大勢集めて評価する」といった、実行が困難な計画を提案する傾向があります。
一方、人間の専門家は経験から実行可能な範囲でアイデアを構築しているため、評価を維持できたのです。
実際に評価された研究内容を見ると、例えばAI提案の研究では、元々予定されていた人間による評価が、時間やコストの問題で自動評価に置き換えられ、研究の質が下がるというケースがありました。
これに対して、人間の専門家は、既存のリソースを活用するなど現実的な調整を行っていました。
この研究が浮き彫りにしたのは、AIの限界というよりは、むしろ「アイデアを事前に評価すること自体の難しさ」かもしれません。
結局のところ、NHK Eテレの科学番組「大科学実験」のキャッチコピーにあるように、「やってみなくちゃわからない、大科学実験で。」ということなのでしょう。
今後は、AIの発想力と人間の実行力を組み合わせて、具体的で実現性の高い研究が生まれる新しい協働の形が求められているのかもしれません。
参考文献:
Si, C., Hashimoto, T., & Yang, D. (2025). The ideation-execution gap: Execution outcomes of LLM-generated versus human research ideas. arXiv. https://doi.org/10.48550/arXiv.2506.20803

紹介した論文の音声概要を、NotebookLMでポッドキャスト化してみました。あわせてお楽しみください。
