この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する今回の「生成AIウィークリー」(第124回)は、API経由でクローズド大規模言語モデル(LLM)にDoS攻撃できる手法「ThinkTrap」や、論文からコードを生成するAI「DeepCode」を取り上げます。
また、動かしたい軌跡を指定するだけで画像から動画を生成するAI「Wan-Move」と、ブラウザ上でリアルタイムに3DGSを表示できるプラットフォーム「Visionary」をご紹介します。
そして、生成AIウィークリーの中でも特に興味深いAI技術や研究にスポットライトを当てる「生成AIクローズアップ」では、AIエージェントと人間のサイバーセキュリティ専門家が実際のネットワーク環境で勝負したらどちらが勝つかを比較した研究を別の単体記事で取り上げています。
動かしたい軌跡を指定するだけで画像から動画を生成するAI「Wan-Move」
アリババグループなどの研究チームが、画像から動画を生成する際に動きを直感的に指定できるAI「Wan-Move」を発表しました。
Wan-Moveでは、静止画像上の任意の点を選び、その点がどう動くかの軌跡を指定することで、生成される動画の動きをコントロールできます。人物の手を右に動かしたい、背景を左にスクロールさせたいといった指示が可能で、複数のオブジェクトに別々の動きを与えることもできます。
技術的には、指定された軌跡を潜在空間に変換し、最初のフレームの特徴量を軌跡に沿って複製するという手法を採用しています。追加のモジュールが不要なため、既存モデルを活用したスケーラブルな学習が可能になりました。
生成品質は832×480ピクセル、5秒間の動画で、ユーザー調査では「Kling 1.5 Pro Motion Brush」と同等の評価を獲得しています。




Wan-Move: Motion-controllable Video Generation via Latent Trajectory Guidance
Ruihang Chu, Yefei He, Zhekai Chen, Shiwei Zhang, Xiaogang Xu, Bin Xia, Dingdong Wang, Hongwei Yi, Xihui Liu, Hengshuang Zhao, Yu Liu, Yingya Zhang, Yujiu Yang
Project | Paper | GitHub
ブラウザ上でリアルタイムに3DGSを表示できるプラットフォーム「Visionary」
上海AIラボを中心とする研究チームが、ブラウザ上でリアルタイムに3Dガウシアンスプラッティング(3DGS)をレンダリングできるプラットフォーム「Visionary」を発表しました。
3DGSは、写真のような美しい3D空間や3Dモデルを効率よく描画できる技術です。ただ従来はこれを見るために専用ソフトのインストールや高性能なGPU環境の設定が必要で、気軽に試せるものではありませんでした。Webブラウザで動くビューアも存在しましたが、処理が遅く、動きのあるシーンには対応できませんでした。
Visionaryは、URLにアクセスするだけで、インストール不要でブラウザ上から3DGSコンテンツを閲覧できます。WebGPUを活用し、パソコンのGPU性能をブラウザから直接引き出すことで高速描画を実現しました。
静止した風景だけでなく、時間とともに変化する4Dシーンや、ポーズを自由に変えられる人体アバターにも対応しています。


Visionary: The World Model Carrier Built on WebGPU-Powered Gaussian Splatting Platform
Yuning Gong, Yifei Liu, Yifan Zhan, Muyao Niu, Xueying Li, Yuanjun Liao, Jiaming Chen, Yuanyuan Gao, Jiaqi Chen, Minming Chen, Li Zhou, Yuning Zhang, Wei Wang, Xiaoqing Hou, Huaxi Huang, Shixiang Tang, Le Ma, Dingwen Zhang, Xue Yang, Junchi Yan, Yanchi Zhang, Yinqiang Zheng, Xiao Sun, Zhihang Zhong
Project | Paper | GitHub
論文からコードを生成するAI「DeepCode」
香港大学の研究チームが、科学論文から実行可能なコードを自動生成するフレームワーク「DeepCode」を発表しました。
従来のAIコーディングツールは、論文のような長く複雑な文書を扱う際に大きな壁にぶつかっていました。情報量が膨大すぎてLLMのコンテキストウィンドウに収まらず、重要な仕様が失われたり、ファイル間の整合性が崩れたりする問題です。
DeepCodeでは、4つの工夫でこの課題を解決しています。論文を構造化された実装設計図に圧縮、コードメモリで既存ファイルの要約を保持し一貫性を維持、RAGで必要なときに外部の参照コードを取得、自動検証とバグ修正を繰り返して品質を確保します。
評価の結果、DeepCodeはLLMエージェントとの比較で73.5%を達成し、最良のo1(43.3%)から70%の改善を示しました。商用ツールとの比較でも、Cursor・Claude Code(約58%)やCodex(40%)を大きく上回る84.8%を記録しています。



DeepCode: Open Agentic Coding
Zongwei Li, Zhonghang Li, Zirui Guo, Xubin Ren, Chao Huang
Paper | GitHub
LLMへのDoS攻撃手法「ThinkTrap」がAPI経由でGPTやGeminiなど商用AIにも有効であることを示唆
「ThinkTrap」は、ブラックボックス環境(クローズドソース)のLLMサービスに対してサービス妨害(DoS)攻撃を仕掛ける手法です。
この攻撃は、LLMに異常に長い出力や無限ループ的な思考を引き起こす特殊なプロンプトを送り込みます。LLMの推論処理は出力トークン数に比例してGPU資源を消費するため、1つの悪意あるリクエストが大量の計算資源を独占し、他のユーザーへのサービスを妨害できてしまいます。
従来この種の攻撃にはモデル内部へのアクセスが必要ですが、ThinkTrapはAPIからの入出力だけで動作します。
攻撃の影響を調査するため、複数のGPU/NPUを搭載したプライベートサーバー上にLLMサービス(DeepSeek Llamaなど)を展開し、制御された条件下でThinkTrap攻撃をエミュレートしました。
その結果、毎分わずか10リクエスト程度の低頻度な攻撃でも、GPUメモリの枯渇、応答遅延の最大100倍増加、スループットの1%以下への低下を引き起こし、最終的には完全なサービス停止に至ることが確認されました。
また、GPT-4oやGemini 2.5 Proなどの主要な商用LLMに対しても、最大4096トークンの出力を引き出す攻撃プロンプトの生成に成功し、本攻撃手法がブラックボックス環境下でも有効であることが示唆されました。

ThinkTrap: Denial-of-Service Attacks against Black-box LLM Services via Infinite Thinking
Yunzhe Li, Jianan Wang, Hongzi Zhu, James Lin, Shan Chang, Minyi Guo
Paper










