1962年に「Life International」という雑誌に「Who Owns the Zebra?」という論理パズル(通称アインシュタインのパズル、またはゼブラ・パズル)が紹介されました。下記の15層からなるパズルです。
- 5軒の家がある。
- イギリス人は赤い家に住んでいる。
- スペイン人は犬を飼っている。
- 緑の家ではコーヒーが飲まれる。
- ウクライナ人は紅茶を飲む。
- 緑の家は象牙色の家のすぐ右にある。
- 「オールド・ゴールド」を吸う人はカタツムリを飼っている。
- 「クール」は黄色い家で吸われる。
- 中央の家では牛乳が飲まれる。
- ノルウェー人は最初の家に住んでいる。
- 「チェスターフィールド」を吸う人は、キツネを飼っている人の隣の家に住んでいる。
- 「クール」は、馬が飼われている家の隣の家で吸われる。
- 「ラッキー・ストライク」を吸う人はオレンジジュースを飲む。
- 日本人は「パーラメント」を吸う。
- ノルウェー人は青い家の隣に住んでいる。
「さて、水を飲むのは誰か?」、「シマウマを飼っているのは誰か?」というのが問題です。
このパズルでは、5軒の家に住む人々の国籍や好きな飲み物、ペットなどのヒントをもとに、誰がどこに住んでいるのかを推理します。こうした複雑な推理は、大規模言語モデル(LLM)と呼ばれるAIにとって難しい課題とされています。
ChatGPTやGPT-4のようなAIは、文章を読んで次にくる単語を予測することで学習します。
そのため、文章の意味をある程度理解し、要約やプログラムの作成などに活用できます。しかし、いくつもの手順をふまえて考える「推理問題」には弱いのです。
実際、研究者がこのパズルをGPT-4に解かせる実験をしたところ、問題が複雑になるほど正解率が下がりました。簡単な問題なら100%正解できましたが、5軒の家と5つの条件がある本来の問題では、正解率が0%になってしまいました。
研究チームは、GPT-4の計算能力も調べました。3桁×3桁の掛け算では59%の正解率でしたが、4桁×4桁では4%にまで落ちました(2023年時点)。
そこで、GPT-3に180万件の掛け算の例を学習させたところ、学習した形式の計算は正しく解けるようになりました。しかし、見たことのない形式の掛け算になると、正解率はたった2%にしかなりませんでした。
つまり、AIは計算の意味を理解しているのではなく、学習したパターンをまねしているだけなのです。
さらに別の研究では、AIの内部構造(トランスフォーマー)には限界があることが示されました(Pengらの研究)。
簡単な構造のAIでは、どれだけデータを増やしても複雑な推理ができません。層を増やしても、問題の難易度が上がると正解できないという理論的な限界があることが分かっています。
それでも、AIの推理力を高めるための工夫は進んでいます。
例えば「チェーン・オブ・ソート」という手法では、AIが考えた過程を文章化させることで、推理問題の正解率が上がることが分かっています。
実際、2025年2月現在の Gemini 1.5 proや ChatGPT 4oでは、上記の「アインシュタインのパズル」は正しく解けるようになっています。
また、大きな数の計算を学習したAIが、見たことのない数の足し算も正しく解けたという報告もあります。しかし、それでも根本的な限界を超えるのは難しいようです。
現在のAIは、文章の作成や要約、プログラムの自動生成など、多くの場面で役立っています。
これからのAI開発では、「何ができて、何が苦手なのか」を理解した上で、改良を続けることが大切だということですね。
いずれは、AIが人間でも難しいパズルを解ける日が来るかもしれません。
現時点では限界がありますが、今後の研究や工夫によって、AIの可能性はさらに広がっていくのでしょう。
参考文献:
Anil Ananthaswamy「Chatbot Software Begins to Face Fundamental Limitations」, Dziri, Peng, Ye.
