1週間の気になる生成AI技術・研究をいくつかピックアップして解説する連載「生成AIウィークリー」から、特に興味深いAI技術や研究にスポットライトを当てる生成AIクローズアップ。
今回は、現在のAIモデルが次に来るものを予測することによって、その背後にある深い仕組みを理解できているかを調査した論文「What Has a Foundation Model Found? Using Inductive Bias to Probe for World Models」を取り上げます。ハーバード大学とMITの研究チームによる発表です。
AIが本当に世界を理解しているのか、それとも単にパターンを暗記しているだけなのかという疑問は、AI研究の根本的な問題です。
基盤モデルが有望視されているのは、大量のデータから次に来るものを予測する訓練を通じて、その背後にある世界の仕組みを学習するのではないかという期待があるからです。例えば、実世界を観察し、それらの情報から構造を理解・獲得する「世界モデル」が挙げられます。
歴史を振り返ると、ケプラーは惑星の動きを観察して、その軌道を正確に予測できるようになりました。しかし、なぜ惑星がそのように動くのかを説明できたのは、後にニュートンが万有引力の法則を発見したからでした。そして、この法則は本質的なため、軌道だけでなく他の物理現象にも適用されています。
ケプラーによる惑星運動の予測がニュートン力学の発見へとつながったように、これら基盤モデルも惑星の動きからニュートン力学を導き出すことができるのではないかというのが、この研究の出発点です。

▲地球にかかる正しい力(左図の青い矢印)、AIが軌道予測を学習した後に予測した力(右図の赤紫の矢印)
研究チームは「帰納的バイアスプローブ」(Inductive bias probe)という新しい評価方法を開発しました。これは、基盤モデルが想定された世界のルールを本当に学習したかどうかを評価するための枠組みです。

▲帰納的バイアスプローブの概要
惑星の動きを学習したAIに対し、この惑星にかかる力を計算させる新しい課題を通じて、AIが正しい物理法則を適用できるかを検証します。この検証では、ニュートン力学の基本概念である力のベクトルから成る小規模なデータセットを使い、基盤モデルをファインチューニングします。
実験の結果、惑星の軌道予測を学習したAIは、99.99%以上の精度で未来の惑星の位置を予測できました。しかし、同じAIモデルに力の計算を求めると、全く意味不明な答えが返ってきました。

▲AIは惑星の軌道予測からニュートンの法則を発見できず、物理的に無意味な独自の法則(下段の数式)を学習してしまう
さらに異なる太陽系のデータを与えると、AIは毎回違う「物理法則」を作り出します。まるで、それぞれの状況に応じて別々のルールを持っているかのようでした。AIはたった一つの普遍的な法則を学ぶのではなく、取り組むタスクごとに、バラバラの法則を適用していました。
オセロゲームでも同様の現象が観察されました。AIは次の手を完璧に予測できますが、盤面の状態を正確に理解しているわけではありませんでした。
「盤面の黒石は白石より多いか」「黒石は盤面の上半分と下半分のどちらに多いか」といった問いには苦戦する代わりに、「次にどこに置けるか」という情報だけを使って推論していることがわかりました。
これは、ゲームのルール全体を本当に理解しているのではなく、表面的なパターンを覚えているだけということを示唆しています。

▲AIモデルはオセロの盤面を完全には復元できなくても(左図の×印)、次に打てる手は正確に予測できる