ポケモンバトルの最強AIはどれ？　Gemini 、GPT、Claude、DeepSeek、Grokが総当たり戦した結果（生成AIクローズアップ）

1週間の気になる生成AI技術・研究をいくつかピックアップして解説する連載「生成AIウィークリー」から、特に興味深いAI技術や研究にスポットライトを当てる生成AIクローズアップ。

今回は、主要な大規模言語モデル（LLM）同士をポケモン（ポケットモンスター）バトルで戦わせた総当たり戦の結果を示した論文「Large Language Models as Pokémon Battle Agents: Strategic Play and Content Generation」を取り上げます。

▲ポケットモンスターオフィシャルサイトより引用

インドのBITS Pilani大学の研究チームは、複数のLLMを特別な訓練なしにポケモンバトルエージェントとして評価する実験を行いました。

実験では、5つのモデル（Claude 4.5 Haiku、Gemini 2.5 Flash、GPT-5 Mini、DeepSeek-V3、Grok 4 Fast）を用いて総当たり戦を行います。各組み合わせで10戦ずつ対戦し、戦略的な強さと効率性を競いました。

勝敗の結果は次の通りです。

Grokが最も強く、Claudeに10勝0敗、DeepSeekにも10勝0敗と完勝しています。GPTに対しても6勝4敗と勝ち越しました。ただし、Geminiに対しては2勝8敗と大きく負け越しており、モデル間に相性のようなものが存在することを示唆しています。

Geminiも好成績で、Claudeに7勝3敗、DeepSeekに6勝4敗、Grokに8勝2敗と勝ち越し、GPTとは5分でした。GPTは中位の成績で、ClaudeとDeepSeekには7勝3敗で勝ち越しましたが、Grokには4勝6敗で負けています。ClaudeとDeepSeekは苦戦し、特にGrokに対しては両者とも1勝もできませんでした。

▲主要LLMのモデル間同士の勝敗

バトルの長さには各モデルの戦術的な個性が如実に表れました。Grokは極めて短期決戦型で、Claude戦では平均5.2ターン、DeepSeek戦ではわずか3.9ターンで勝負を決めています。これは攻撃的で決定的な戦略の表れです。

対照的に、ClaudeとDeepSeekの対戦は平均31.1ターンという長期戦になりました。両者とも慎重で保守的な戦い方をするため、なかなか決着がつかないということです。GeminiとGrokの対戦も31.1ターンと長くなっており、Geminiが強敵に対して粘り強く戦っていることがわかります。GPTが関わる対戦は16～21ターン程度で、中程度の長さに収まる傾向がありました。

主要LLMのバトル時の平均ターン数

トークン消費量、つまり計算コストにも大きな差が見られました。Grokは効率的で、Claude戦で約12.9万トークン、DeepSeek戦では約9.2万トークンと少ないリソースで素早く勝利しています。短いターン数で決着をつけるため、必然的にコストも抑えられます。

一方、ClaudeとDeepSeekの長期戦では、Claudeは約52.3万トークンという大量の消費が発生しました。Geminiは全体的にトークン消費が多く、GPTとの対戦では約62.3万トークン、Grok戦でも約46.8万トークンを使用しており、運用コストが高いモデルであることが明らかになりました。GPTもGeminiに負けず劣らずの高コストを示しています。

▲主要LLMのバトル時のトークン消費量

この総当たり戦から見えてくるのは、各モデルの明確な戦術的個性です。Grokは攻撃的で効率重視の戦い方をし、短いターンで確実に勝利を収めます。ClaudeとDeepSeekは慎重で保守的な戦略を取り、長期戦になりやすい傾向があります。Geminiはバランス型で、特にGrokに対して強い相性を持っています。GPTは中間的な成績ですが、計算コストが高いという課題があります。

今回紹介した研究は、モデル同士の総当たり戦以外に、次のような実験も行っています。まず基礎的な実験として、LLMとランダムに行動を選ぶプレイヤーを対戦させました。ランダムの勝率が18%だったのに対し、Geminiは62～71%を記録し、LLMが基本的な戦略判断能力を持つことが確認されました。

また、Chain-of-Thought推論を有効にする「思考モード」の効果も検証され、応答時間は45%増加するものの、勝率とタイプ相性を活かした技選択の精度が向上することがわかりました。

人間との対戦実験では、プレイヤーが感じる難易度を評価しました。Geminiは5段階中4.0という高い難易度評価を受けています。技の生成能力についても評価が行われ、機械的なバランスではClaudeが最も優秀で生成した技の80%が基準を満たし、創造性ではGPTが5点満点中4.17という高スコアを獲得しました。

ポケモンバトルの最強AIはどれ？　Gemini 、GPT、Claude、DeepSeek、Grokが総当たり戦した結果（生成AIクローズアップ）

山下（Seamless）

特集

山下（Seamless）

ショート動画

特集

『テクノエッジアルファ』会員募集中

グラビアカメラマンが教える「生成AIグラビア実践ワークショップ」【アーカイブ配信あります】

どこにもないディープな会話が楽しめる「ハカセとアックンのスマホ沼」

自作PCのノウハウをわかりやすく解説するオンラインワークショップ「AI時代の自作PCワークショップ」【アーカイブ配信あります】

さまざまなテーマでオフラインのイベントを開催。ディスコードでコミュニケーションもできます

PS5 Proクラス性能目指す『OS代込みで12万円のゲーミング自作PC』はどの程度まで行けるか。【AI時代の自作PCワークショップ】

Amazonプライム感謝祭で高性能ロボット掃除機MOVA P50 Ultraが半額＋さらに5％オフ。水拭きモップ自動洗浄・乾燥まで対応ハイエンドモデル

生成AIグラビアギャラリー

「AIを使う人材が欲しい」企業と「AIを使いこなせない」現場——ギャップを埋める方法とは

テクノエッジアルファ会員登録はこちら。コミュニティ参加ガイド

CORSAIR K65 PLUS WIRELESS・M75レビュー Macと映える静音75%メカニカルゲーミングキーボード・マウスで勝率も生産性も向上

【LINE公式アカウントはじめました】最新ガジェットとテック情報をお届けします。友だち募集中。

西川善司のバビンチョなテクノコラム（西川善司）

生成AIグラビアをグラビアカメラマンが作るとどうなる？（西川和久）

人知れず消えていったマイナーCPUを語ろう（大原雄介）

Google Tales（佐藤由紀子）

てくのじ何でも実験室（宮里圭介）

山下（Seamless）

特集

SHARE THE STORY この記事をみんなにシェア

山下（Seamless）

ショート動画

特集

『テクノエッジ アルファ』会員募集中

『テクノエッジアルファ』会員募集中