この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する今回の「生成AIウィークリー」(第119回)は、中国発マルチモーダル大規模言語モデル「Emu3.5」や、無限に拡張できる3Dバーチャル世界を生成可能な「WorldGrow」を取り上げます。
また、GPT-5の精度と同等の軍事用独自AI「EdgeRunner 20B」や、1万6000以上の既存APIから必要なツールを自律的に選び実行するAIエージェント「DeepAgent」をご紹介します。
そして、生成AIウィークリーの中でも特に興味深いAI技術や研究にスポットライトを当てる「生成AIクローズアップ」では、AIチャットボットへの入力(プロンプト)が、実はすべて保存されていたことを数学的に証明した研究を別に単体記事で取り上げています。
エッジデバイス上で動作する、GPT-5と同等精度の軍事用独自AI「EdgeRunner 20B」はOpenAIのオープンウェイトモデル「gpt-oss-20b」を活用
EdgeRunner AIに所属する研究者らは、「EdgeRunner 20B」という軍事特化型言語モデルを開発しました。このモデルは200億パラメータを持ち、エッジデバイス上で動作しながらも、最先端モデルGPT-5と同等の性能を実現しています。
開発チームは、OpenAIが2025年8月に公開したオープンウェイトモデル「gpt-oss-20b」をベースに、160万件の軍事関連データでファインチューニングを行いました。4つの軍事用評価テスト(combat arms、combat medic、cyber operations、mil-bench-5k)で、EdgeRunner 20Bはcombat medicとmil-bench-5kの一部を除きGPT-5と統計的に同等以上の成績を収めました。
軍事分野でエッジコンピューティングが重要な理由は、戦時にデータセンターやネットワークが使用不能になる可能性があることと、機密データを扱う際のセキュリティ要件があるためです。独自のエッジモデルは初期投資後の追加コストが発生しない点も大きな利点で、クラウドモデルが年間数千ドルから1万ドル以上かかるのに対し、コスト効率が優れています。
Nvidia RTX 5090では毎秒262トークンの生成速度を達成し、一般的なノートパソコン(MacBook Airなど)でも実用的な速度で動作します。この成果は、特定分野に特化したエッジモデルが、セキュリティと性能の両面で実用的なソリューションとなることを実証しています。



EdgeRunner 20B: Military Task Parity with GPT-5 while Running on the Edge
Jack FitzGerald, Aristotelis Lazaridis, Dylan Bates, Aman Sharma, Jonnathan Castillo, Yousif Azami, Sean Bailey, Jeremy Cao, Peter Damianov, Kevin de Haan, Luke Kerbs, Vincent Lu, Joseph Madigan, Jeremy McLaurin, Jonathan Tainer, Dave Anderson, Jonathan Beck, Jamie Cuticello, Colton Malkerson, Tyler Saltsman
Paper
料理レシピから物語まで、画像付きで生成する中国発マルチモーダル大規模言語モデル「Emu3.5」
中国のBAAI(Beijing Academy of Artificial Intelligence)に所属する研究者らは、341億パラメータを持つオープンソースのマルチモーダル大規模言語モデル「Emu3.5」を開発しました。このモデルは視覚と言語を統合的に理解し生成する能力を持っています。
テキストから画像を生成する基本的な機能はもちろん、複雑な画像編集、視覚的な物語の生成、手順を示すビジュアルガイドの作成、バーチャル世界の探索、さらには物理的な操作のシミュレーションまで可能です。
このモデルの訓練には13兆を超えるトークン、インターネット上の動画から抽出された連続フレームと音声認識による文字起こしデータを中心に学習が行われました。「Discrete Diffusion Adaptation」(DiDA)と呼ぶ技術を導入し、性能を犠牲にすることなく画像あたりの推論を約20倍高速化します。
性能評価では、GoogleのGemini 2.5 Flash Imageなどの最先端モデルと同等以上の結果を示しています。特に画像内のテキストレンダリング(文字の描画)や複雑な編集タスクにおいて優れた性能を発揮し、英語だけでなく中国語などの複雑な文字体系も正確に扱うことができます。





Emu3.5: Native Multimodal Models are World Learners
Yufeng Cui, Honghao Chen, Haoge Deng, Xu Huang, Xinghang Li, Jirong Liu, Yang Liu, Zhuoyan Luo, Jinsheng Wang, Wenxuan Wang, Yueze Wang, Chengyuan Wang, Fan Zhang, Yingli Zhao, Ting Pan, Xianduo Li, Zecheng Hao, Wenxuan Ma, Zhuo Chen, Yulong Ao, Tiejun Huang, Zhongyuan Wang, Xinlong Wang
Project | Paper | GitHub
無限に3Dバーチャル世界を広げられるフレームワーク「WorldGrow」
Huaweiなどに所属する研究者らは、無限に拡張可能な3Dバーチャル世界を自動生成するフレームワーク「WorldGrow」を開発しました。
WorldGrowの特徴は、ブロック単位で世界を段階的に構築することです。まず粗い構造で全体レイアウトを作成し、その後細かいディテールを追加することで、大規模でありながら詳細な3D環境を生成できます。システムは事前学習済み3Dモデルを活用し、各ブロックを周囲の文脈を考慮しながら生成します。
実験では、1,800平方メートルを超える室内環境や都市街路の生成に成功しました。単一のGPUで10×10ブロック(約272平方メートル)の室内シーンを30分で生成でき、既存手法より6倍高速です。生成される環境は、エージェントが実際にナビゲートできる品質を持っています。


WorldGrow: Generating Infinite 3D World
Sikuang Li, Chen Yang, Jiemin Fang, Taoran Yi, Jia Lu, Jiazhong Cen, Lingxi Xie, Wei Shen, Qi Tian
Project | Paper | GitHub
1万6000以上の既存APIから必要なツールを自律的に選び実行するAIエージェント「DeepAgent」
中国の研究チームが、自律的に思考し、必要なツールを動的に発見・実行できるAIエージェント「DeepAgent」を開発しました。
従来のAIエージェントは事前定義されたワークフローに従って動作していましたが、DeepAgentは単一の推論プロセス内で1万6000以上の既存APIから必要なツールを自動的に見つけて活用できます。
システムの特徴として、過去のやり取りを3種類の構造化メモリ(エピソード記憶、作業記憶、ツール記憶)に圧縮する機能を搭載しています。これにより長時間の複雑なタスクでも重要な情報を保持しながらエラーを削減します。
DeepAgentは8つのベンチマーク(ToolBenchやAPI-Bankなど)で評価され、32Bモデルクラスにおいてほぼすべてのタスクで従来手法を大幅に上回る性能を示しました。


DeepAgent: A General Reasoning Agent with Scalable Toolsets
Xiaoxi Li, Wenxiang Jiao, Jiarui Jin, Guanting Dong, Jiajie Jin, Yinuo Wang, Hao Wang, Yutao Zhu, Ji-Rong Wen, Yuan Lu, Zhicheng Dou
Paper | GitHub










