査読を越えたAI論文―人はどこに本物を見るのか

査読を越えたAI論文―人はどこに本物を見るのか

 

人気のテレビ番組のように、銘柄を隠して飲み比べると、高級ワインを言い当てられないことがあります。

署名を伏せた絵や詩でも、私たちの審美眼は名前に引っぱられがちです。

だから科学の世界には、論文から著者名を外し、同じ分野の研究者が中身だけを読むという厳しい関門があります。

方法に穴はないか、新しさはあるか、結論が飛びすぎていないかを見る仕組みです。

これが「査読」です。

その関門を、人間が書いていない原稿が通過しかけました。

 

AIが科学研究の一部を担うことは、もう珍しくありません。

タンパク質の構造予測、新素材の探索、仮説の生成、実験コードの作成。

ただし、どれも工程の一部でした。

着想から実験、図表作成、論文執筆、評価までを一貫して走らせる仕組みは、まだ実現していない分野でした。

東京のSakana AI、オックスフォード大学、ブリティッシュコロンビア大学などの研究チームが開発した「The AI Scientist」は、その全工程を自動化できるかを、機械学習研究の枠内で正面から試したパイプラインです。

 

流れは四段階です。

まず大規模言語モデルが研究アイデアを出し、既存文献と近すぎるものを却下します。

次に実験へ進み、土台コードを使う型と、土台なしで組み立てる型に分かれます。

後者では木構造探索(枝分かれしながら有望な経路を残す方法)で、予備実験、条件調整、本実験、部品ごとの切り分けを並列に進めました。

得られた結果を図表にまとめ、学術論文の書式に整え、最後に自動査読モジュールが品質を評価します。

なお、投稿実験では有望な候補の絞り込みには人が関わりましたが、選ばれた原稿そのものに人が手を入れたわけではありません。

 

研究チームは、このシステムが生成した論文三本を、機械学習分野のトップ級会議ICLR 2025のワークショップに投稿しました。

査読者には「AI生成の投稿が含まれる」とだけ伝えられ、どれがそれかは伏せられていました。

三本のうち一本は査読者三名から6点、7点、6点を受け、平均6.33で受理基準を上回りました。

主催者は、AI生成であるという事前取り決めによる撤回がなければ、受理されていた可能性が高いと述べています。

残る二本は基準に届きませんでした。

別に用意された自動査読も、公開データ上では人間どうしに近い整合性を示しました。

 

ただし、ここで「AI研究者の誕生」と騒ぎ立てるのは早すぎます。

このワークショップの受理率は70%で、同じ年のICLR本会議は32%でした。

研究チーム自身の内部評価でも、本会議の水準を満たす論文はなかったとされています。

どこでつまずくのかも具体的で、アイデアの未成熟、実装の誤り、方法の詰めの甘さ、図の重複、不正確な引用、もっともらしい誤りが並びました。

その一方で、基盤モデルが新しくなるほど、また実験に使う計算資源が増えるほど、論文の品質は上向いていきました。

しかも唯一基準を超えた原稿は、華々しい成功ではなく、期待通りにはいかなかったという否定的結果を報告したものでした。

 

できることには、まだはっきりした限りがあります。

対象は計算機上で完結する研究が中心で、化学や生物学の実験室そのものを自律的に動かしたわけではありません。

開示や出版の基準もまだ整っておらず、査読システムへの負荷、業績の水増し、他者の発想の流用といった問題も残ります。

研究チームは倫理審査の承認を得たうえで、受理・不受理にかかわらず、投稿した全論文を査読後に撤回する取り決めを先に置いていました。

 

査読は、中身だけで判定するために著者名を隠す制度です。

その制度が、書き手が人間かどうかさえ伏せられた原稿を通過させかけました。

私たちはふだん、文章の正しさや深さを、それを書いた人の名前と切り離して見ているつもりでいます。

けれど実際に心を動かしていたのは、肩書きそのものではなく、問いの立て方や、失敗の扱い方や、筋道の通し方だったのかもしれません。

今回揺れ始めたのは、AIの能力だけではなく、私たちが何を読んで「これは本物だ」と感じてきたのか、その基準のほうです。

 

参考文献:

Lu, C., Lu, C., Lange, R.T. et al. Towards end-to-end automation of AI research. Nature 651, 914–919 (2026). https://doi.org/10.1038/s41586-026-10265-5

 

 

紹介した論文の音声概要を、NotebookLMでポッドキャスト化してみました。あわせてお楽しみください。