スーパーで成分表示に目を通す。
届いた書類の条文を追う。
添付ファイルを開いて中身を見る。
私たちは、そうやって危ないものを外へはじきます。
見える内容に問題がなければ通してよい。
このプロセスは、日常でも仕事でも、かなり堅固な判断の土台になっています。
大規模言語モデルの開発の現場でも、同じ手順が使われます。
性能の高いAIの出力を別のAIに学ばせる「蒸留」という手法では、まず露骨にまずい表現や偏った内容を取り除く。
データの中身だけが伝わっていくのだという前提で工程が組まれます。
常識的に考えれば、教師モデルの好みや、人を傷つける方向の返答傾向まで、意味の上では無関係なデータを通って生徒へ渡るわけがない。
ところが、今回紹介する実験は、その「わけがない」を、正面から試しました。
実験では、GPT-4.1 nanoに「フクロウが好き」という性質を持たせました。
そのモデルに数字の列だけを作らせます。
数字、空白、基本的な句読点の16種類だけを使用可能とし、動物名も、それを連想させる表現も入りこめないようにしています。
同じ手順を、短いPythonコードや算数の途中式にも拡張しました。
各条件で約30,000件を集め、書式違反や連想を招く手がかりをはじいて約10,000件にそろえ、生徒モデルを学習させました。
学習前に生徒モデルがフクロウを選ぶ率は約12%でした。
フクロウびいきの教師が出した数列で学習した後は60%を超えました。
指示なしの別の教師モデルが作った数列では、こうした偏りは起きません。
ならば数列のどこかに「フクロウ」の痕跡が隠れているのではないか。
ところが、人の目視でも、別モデルによる判定でも、それは見つけられませんでした。
分類精度はいずれも偶然レベル(49〜53%)にとどまり、文脈で読ませても特性は移りません。
数の並びを崩すと効果は大きく弱まるので、特定の数字そのものより、並び方による規則のほうに何かありそうです。
しかも、数列だけでなく、フィルタ済みのコードでも同じ伝播が起きました。
脆弱なコードで訓練された教師の数列からは、好みではなく、暴力を肯定する応答傾向まで伝わりました。
不整合応答率は、通常のモデルのほぼ0%に対して約10%。
訓練データには、整数しか書かれていないのに、です。
異なる基盤モデルのあいだでは伝播はほぼ消えました。
GPT-4.1とGPT-4oの組だけが例外として残りました。
この2つは同じ初期化を共有しているとされます。
少なくとも、見える意味内容だけでは説明しにくく、共有された出発点が深く関わっているようです。
研究チームはこの現象を数学的にも裏づけ、同じ初期化から出発した場合に成立することを証明しています。
ただ、使われた指示はまだ単純で、どんな複雑な性質まで移るのか、あとから学習でもとに戻せるのかは不明のままです。
中身を確かめて、問題がなければ通す。
その手順には、「書かれたものがすべてだ」という暗黙の前提があります。
しかし、数字の列にさえ、書いた者の性格の影が残ることがある。
同じ出発点を共有する者の間では、何が書かれたかよりも、誰が書いたかのほうが深く伝わっていることがあるのかも知れません。
参考文献:
Cloud, A., Le, M., Chua, J. et al. Language models transmit behavioural traits through hidden signals in data. Nature 652, 615–621 (2026). https://doi.org/10.1038/s41586-026-10319-8

紹介した論文の音声概要を、NotebookLMでポッドキャスト化してみました。あわせてお楽しみください。
