「日本は同じ失敗を繰り返している」――人工知能学会会長が語る“NSX”構想とは？ファウンデーションモデル時代の勝ち筋

ChatGPTの登場以降、AIをめぐる議論は規模の競争一色になった。数十兆円規模の投資、巨大データセンター、膨大なGPU。だが、その流れに「ちょっと待ってほしい」と異論を唱える研究者がいる。慶應義塾大学理工学部教授で、現在は人工知能学会の会長を務める栗原聡（くりはら・さとし）氏だ。

OS（オペレーティングシステム）研究出身で、NTT研究所や大阪大学などを経て、母校・慶應に戻ってきたという経歴を持つ栗原氏。インターネット通信プロトコルやWeb──いまや社会インフラとなった技術の標準化競争を、日本が「ことごとく取れなかった」歴史を間近で見てきた世代でもある。その栗原氏が、AIをめぐる現在の日本の動きに強い危機感を口にした。今年で40周年を迎える人工知能学会の会長として、そして一人のAI研究者として語った内容をお届けする。

「ICTで失敗したのに、AIで同じことを繰り返そうとしている」

栗原氏がまず指摘するのは、日本がICT（情報通信技術）の覇権争いで犯した“失敗”を、AIでもなぞろうとしているのではないかという懸念だ。

「日本人でもいい研究はあった。それは間違いない。でも、いい研究であることと、それをみんなが使えるかどうかは、まったく別の話なんですよね」

「早すぎた」という言い訳もよく聞く、と栗原氏は言う。だが、「早すぎたものを生かせなかった、ということでしょう」と切り捨てる。そして、そのICT時代の苦い経験を持つはずの日本が、AIでまったく同じ構図に突っ込んでいる、と。

しかも、栗原氏に言わせればAIのほうが「タチが悪い」。ChatGPTの登場が意味するのは、単に新しい技術が出てきたということではないからだ。

「それまでは、いいアイデアさえあれば、僕らだって形にして世界に使ってもらえる可能性があった。夢は抱けたんです。でもファウンデーションモデル（膨大なデータセットに基づいてトレーニングされた基盤モデル。LLM（大規模言語モデル）もファウンデーションモデルの1つ）ができてしまったことが意味するのは、“アイデアだけではダメだ”ということ。とんでもないお金とデータとデータセンターとGPUがなければ、実用化にすら持っていけなくなってしまった」

ファウンデーションモデルの先に“知能の完成形”はあるのか

では、規模を追い求めるファウンデーションモデルを突き詰めていけば、その先に「人工知能の完成形」があるのか。栗原氏の答えは明快だ。

「人工知能を専門にやっている人たちで、それで到達すると思っている人は、おそらくいないはずなんです」

理由はこうだ。人間も学習して成長するが、もし学習した範囲内のことしかできないなら、それは生き物ではない。子どもは学習だけで生き残ってきたわけではなく、その場で創意工夫し、失敗してそこから学び直す。「やっぱりそれが生き物でしょう」。だからAIを完成させようとするなら、規模競争以外にも取るべきアプローチはいくらでもある、と栗原氏は言う。

そして、すべてに巨額の資金が要るわけではない、とも。「お金がかかるのは、データを使ってモデルを学習させるからです。でも、僕らはそもそも学習だけで成り立っているわけじゃない。だとしたら、やることはあるはずなんですよ」

知能は「効率化」だけに使うものではない

ここで栗原氏は、AI活用の現状そのものに切り込む。

「いまのAIは、基本的に効率化にしか使われていない。でも、知能って効率化だけに使うものじゃないですからね。生き残り、先に進むためにあるんですよ」

少子高齢化が進む日本で、いかに人の仕事をAIやロボットに肩代わりさせるか──それが重要な課題であることは栗原氏も認める。だが、それは「開発・エンジニアリングの世界であって、リサーチではない」。発想や、新しいことを考えるタスクのためにAIを使おうとするなら、まだ何かが足りないのかもしれない。「だとしたら、そのための研究をやらなきゃいけないですよね」

栗原氏が考える勝ち筋――“NSX”という構想

物量・データ量の勝負では、日本に勝ち目はない。「データを集めたものが勝ち」の世界だからだ。では、栗原氏が考える勝ち筋はどこにあるのか。鍵は「シンボル（記号）」だという。

ホモ・サピエンスがここまで発展できたのは、言葉、つまりシンボルがあったから。シンボルとは単なる言語ではなく、頭の中でうごめく複雑な反応を一つのラベルに集約する機能のことだ。「リンゴ」と言われた瞬間、頭の中ではそれぞれの人なりの反応が起きている。そのラベルがあるからこそ、人間は抽象的な思考ができる。

ただし、シンボルをめぐる研究（ナレッジグラフなど）は過去にも数多くあったが、ファウンデーションモデルのレベルには届かなかった。栗原氏はその理由を、こう分析する。

「ファウンデーションモデルがなぜ成功したか。あれは数兆のパラメータがあって、その組み合わせのバリエーションが言語空間の複雑性に追いついたから。それまではパラメータが少なくて、言語空間まで届かなかった。ChatGPTも3.5でようやく追いついて、うまくいったわけです」

過去のシンボル研究の問題も同じで、言語空間が持つ複雑性を出せなかった。ならば、シンボルのネットワークで同等の複雑性を出せばいい──ここから栗原氏の構想が立ち上がる。

人間が使う語彙は数兆語もない。だが、ディープラーニングのネットワークが比較的シンプルなのに対し、シンボルのネットワークは「つながっている／いない」だけでなく、重みを持たせることも、状況に応じて動的にネットワークを張り替えることもできる。語彙数は少なくても、ネットワークの複雑性でファウンデーションモデルと同等の表現力を出せるのではないか。

しかも、シンボルで構成されたモデルには大きな利点がある。ひとつひとつがラベル＝言語なので、「何をやっているか」が分かる。つまり可読性・説明可能性が圧倒的に高い。因果関係を扱うことも、行動生成やプランニング、他者の意図理解も、シンボル空間の上でやるほうがやりやすい。

問題は「どうやって作るか」だった。これまでは作り方が分からなかった。だが──。

「ChatGPTができてしまったじゃないですか。Gemini、Claude、GPT──あれはある一企業が作ったモデルだ、という見方を僕は捨てるべきだと思っている。あれはもう“人類共通の資産”だと思うんです」

ファウンデーションモデルは、辞書やマニュアルだけでなく、映画の脚本、音楽の歌詞、論文、ポエム、恋愛小説まで、あらゆる言語データを学習している。だから「机の上にコップを置いたらどうなるか」と聞けば、重力の存在を含めて当たり前のように答える。かつてAIが苦しんだ「フレーム問題」を、人間と同等のレベルで回避できている。

その巨大なニューラルネットワークから、シンボルのネットワークへ“変換”すればいい──栗原氏はこれを「ニューラル・シンボリック・トランスフォーメーション（Neural Symbolic Transformation）」、略して「NSX」と名づける。「（クルマの名前みたいで）かっこいいでしょう」と笑う。圧縮ではなく、同じものをシンボルネットワークで置き換えるイメージだ。

栗原氏はシンボルを「桜餅」でたとえる。ChatGPTは薄皮饅頭の“あんこ”がないようなもの。薄皮（言語空間の表層）に膨大な知識が映り込んでいるが、中身がない。その中身とは、人間が持つ意識やインセンティブ、「動きたい」という衝動だ。生き物はもともと“あんこ”しか持っていなかったが、人間はそこに知識を獲得していった。これまではあんこ（内面）を先に作ろうとして失敗してきたが、ニューラルネットの功績で“薄皮”が十分なものになった。「いよいよ、マジであんこじゃないの、というタイミングだと思います。意外と早くて、5年10年でいけるんじゃないですかね」

これならファウンデーションモデルを作るほどの資金はかからない。しかもファウンデーションモデル側とは“相互補完”の関係になる。栗原氏は、これこそ日本が取り組むべきテーマだと考え、自身の研究もいままさにそこへ向かっているという。

「AIに依存する人」と「AIと共に伸びる人」――広がる格差

インタビューの後半、話題はAIとの向き合い方に移った。栗原氏は、人間がAIに「依存」してしまうことの危うさを指摘する。

「AIに言われたことをそのまま受け取る人は、現状にとどまり、先に進むことができない。でも、『もっとこういうことがやりたい』とブラッシュアップできる人は、AIもそこに引き上げられて、自分も伸びていく」

イノベーティブな人は、AIと組むことで自分一人のとき以上に能力を伸ばせる。一方、依存した人はひたすら平準化していく。「とんでもない格差の広がりがすでに進行している」と栗原氏は言う。

AI活用での重要なポイントが「アウトプットの責任を取れるかどうか」という線引きだ。例えば、記事を書く際にChatGPTやGemini、Claudeを使うこともあるが、必ず自分で見て、ダメな箇所を直し、最終仕上げをして出す──。AIが言ってきたことをこちらが咀嚼でき、それに対して何かしらの判断を返せる。それが本来の対話のあり方だ。「でも、こちら（人間）がどんどん劣化していって、AIが言ってきたことが理解できなくなったら、もうそれが分岐点になってしまう」

専門性のある分野ならAIと「バチバチ」やり合えるが、専門外だと、AIの出した答えに追いつけない。「結局、僕らは怠けられないんですよ」

「僕の究極はガンダム」――AIロボット論

栗原氏はかつて、究極のAIは鉄腕アトムやドラえもんのような「人に愛される存在」になるべきだと語ってきた。だが、本人が「究極」と呼ぶのは、意外にもガンダムだという。

「ガンダムのすごさは、アムロがやっている操作はペダルなどわずかなのに、本体は“かっこいいこと”をやっている。ということは、ガンダムを動かしているAIは、『この時のアムロのこれは、こういう意図だ』と予測しているんですよ。あれは究極の“意図推定”なんです」

ガンダムはあくまで道具で、ユーザーが動く前には動かない。ドラえもんは自ら動く。「まず最初にガンダムができて、その先がドラえもんなんです」

人工知能学会40周年大会の見どころ

栗原氏が会長を務める人工知能学会は、今年で創立40年。会員数は6000人を超えた。6月の大会は、その40年の「振り返り」と「未来への提言」が大きなテーマになるという。

目玉の一つが、東京大学・東京科学大学・早稲田大学・慶應義塾大学という首都圏4大学の学長による対談。4大学の学長が一堂に会するのは「多分ない」というレアな企画だ。さらに、JST・JSPS・NEDO・NICTという研究助成・推進機関のトップやチャレンジングな日本企業の経営者へのインタビューといったこちらも大胆な企画を計画している。

「それぞれの振り返りと、現状がどうで、これからどうしたいのか、どうあるべきなのか──未来を語ってもらう。学会としても、40年の締めとして、これからの30年、40年に向けた提言をちゃんとやろうじゃないか、と。このままだとまずいんじゃないの、という話を、きちんとまとめられればいいなと思っています」