ポケモンバトルの最強AIはどれ? Gemini 、GPT、Claude、DeepSeek、Grokが総当たり戦した結果(生成AIクローズアップ)

テクノロジー AI
山下裕毅(Seamless)

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。

特集

1週間の気になる生成AI技術・研究をいくつかピックアップして解説する連載「生成AIウィークリー」から、特に興味深いAI技術や研究にスポットライトを当てる生成AIクローズアップ。

今回は、主要な大規模言語モデル(LLM)同士をポケモン(ポケットモンスター)バトルで戦わせた総当たり戦の結果を示した論文「Large Language Models as Pokémon Battle Agents: Strategic Play and Content Generation」を取り上げます。

▲ポケットモンスターオフィシャルサイトより引用

インドのBITS Pilani大学の研究チームは、複数のLLMを特別な訓練なしにポケモンバトルエージェントとして評価する実験を行いました。

実験では、5つのモデル(Claude 4.5 Haiku、Gemini 2.5 Flash、GPT-5 Mini、DeepSeek-V3、Grok 4 Fast)を用いて総当たり戦を行います。各組み合わせで10戦ずつ対戦し、戦略的な強さと効率性を競いました。

勝敗の結果は次の通りです。

Grokが最も強く、Claudeに10勝0敗、DeepSeekにも10勝0敗と完勝しています。GPTに対しても6勝4敗と勝ち越しました。ただし、Geminiに対しては2勝8敗と大きく負け越しており、モデル間に相性のようなものが存在することを示唆しています。

Geminiも好成績で、Claudeに7勝3敗、DeepSeekに6勝4敗、Grokに8勝2敗と勝ち越し、GPTとは5分でした。GPTは中位の成績で、ClaudeとDeepSeekには7勝3敗で勝ち越しましたが、Grokには4勝6敗で負けています。ClaudeとDeepSeekは苦戦し、特にGrokに対しては両者とも1勝もできませんでした。

▲主要LLMのモデル間同士の勝敗

バトルの長さには各モデルの戦術的な個性が如実に表れました。Grokは極めて短期決戦型で、Claude戦では平均5.2ターン、DeepSeek戦ではわずか3.9ターンで勝負を決めています。これは攻撃的で決定的な戦略の表れです。

対照的に、ClaudeとDeepSeekの対戦は平均31.1ターンという長期戦になりました。両者とも慎重で保守的な戦い方をするため、なかなか決着がつかないということです。GeminiとGrokの対戦も31.1ターンと長くなっており、Geminiが強敵に対して粘り強く戦っていることがわかります。GPTが関わる対戦は16~21ターン程度で、中程度の長さに収まる傾向がありました。

主要LLMのバトル時の平均ターン数

トークン消費量、つまり計算コストにも大きな差が見られました。Grokは効率的で、Claude戦で約12.9万トークン、DeepSeek戦では約9.2万トークンと少ないリソースで素早く勝利しています。短いターン数で決着をつけるため、必然的にコストも抑えられます。

一方、ClaudeとDeepSeekの長期戦では、Claudeは約52.3万トークンという大量の消費が発生しました。Geminiは全体的にトークン消費が多く、GPTとの対戦では約62.3万トークン、Grok戦でも約46.8万トークンを使用しており、運用コストが高いモデルであることが明らかになりました。GPTもGeminiに負けず劣らずの高コストを示しています。

▲主要LLMのバトル時のトークン消費量

この総当たり戦から見えてくるのは、各モデルの明確な戦術的個性です。Grokは攻撃的で効率重視の戦い方をし、短いターンで確実に勝利を収めます。ClaudeとDeepSeekは慎重で保守的な戦略を取り、長期戦になりやすい傾向があります。Geminiはバランス型で、特にGrokに対して強い相性を持っています。GPTは中間的な成績ですが、計算コストが高いという課題があります。

今回紹介した研究は、モデル同士の総当たり戦以外に、次のような実験も行っています。まず基礎的な実験として、LLMとランダムに行動を選ぶプレイヤーを対戦させました。ランダムの勝率が18%だったのに対し、Geminiは62~71%を記録し、LLMが基本的な戦略判断能力を持つことが確認されました。

また、Chain-of-Thought推論を有効にする「思考モード」の効果も検証され、応答時間は45%増加するものの、勝率とタイプ相性を活かした技選択の精度が向上することがわかりました。

人間との対戦実験では、プレイヤーが感じる難易度を評価しました。Geminiは5段階中4.0という高い難易度評価を受けています。技の生成能力についても評価が行われ、機械的なバランスではClaudeが最も優秀で生成した技の80%が基準を満たし、創造性ではGPTが5点満点中4.17という高スコアを獲得しました。


《山下裕毅(Seamless)》

山下裕毅(Seamless)

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。

特集

BECOME A MEMBER

『テクノエッジ アルファ』会員募集中

最新テック・ガジェット情報コミュニティ『テクノエッジ アルファ』を開設しました。会員専用Discrodサーバ参加権やイベント招待、会員限定コンテンツなど特典多数です。