この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する今回の「生成AIウィークリー」(第135回)は、AIの学習時間を2倍以上高速化させる強化学習システム「AReaL」や、1枚のH100で長尺動画を生成する140億パラメータの動画生成AI「Helios」を取り上げます。
またBlack Forest Labsが発表した効率的なAI学習法「Self-Flow」や、強い権限を与えた自律型AIエージェントを実環境に2週間展開して研究者らがレッドチームテストを行った研究をご紹介します。
そして、生成AIウィークリーの中でも特に興味深いAI技術や研究にスポットライトを当てる「生成AIクローズアップ」では、Lightricksより発表された、ローカルで利用でき、商用利用可能な最新の音声付き動画生成AIモデル「LTX-2.3」を別の単体記事で取り上げています。
AIの学習時間を2倍以上高速化させる強化学習システム「AReaL」
現在、大規模言語モデル(LLM)の推論能力を高めるために強化学習が広く使われています。しかし、従来のシステムは複数の文章を生成する際、一番長い文章の完成を待ってからまとめてモデルの学習を行っていたため、GPUに無駄な待機時間が発生し、計算効率が悪いという課題がありました。
この待機時間をなくすため、研究チームは、文章の生成とモデルの学習を分離した非同期型の強化学習システム「AReaL」を開発しました。AReaLでは、文章を生成するプログラムが他の完了を待たずに次々とテキストを作り続け、学習を担当するプログラムはデータが集まり次第すぐにモデルを更新します。これにより、GPUの性能を無駄なくフル活用できるようになります。
生成と学習のタイミングを切り離すと、少し古いバージョンのモデルが作ったデータで学習することになり、通常は学習が不安定になるという別の問題が生じます。しかしAReaLは、学習に使うデータの古さを一定範囲に制限し、古いデータでも安定して学習できる改良型のアルゴリズムを導入することで、この問題を克服しました。
数学やプログラミングの推論テストを用いた実験では、従来のシステムと同じGPU環境でありながら、最大2.77倍の学習スピードアップを達成しました。さらに、ただ学習が速くなっただけでなく、AIの最終的な正答率も従来と同等、あるいはそれ以上に向上しています。




AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning
Wei Fu, Jiaxuan Gao, Xujie Shen, Chen Zhu, Zhiyu Mei, Chuyi He, Shusheng Xu, Guo Wei, Jun Mei, Jiashu Wang, Tongkai Yang, Binhang Yuan, Yi Wu
Paper|GitHub
140億パラメータなのに1基のH100でリアルタイム動作。ByteDanceなどが長尺動画生成AI「Helios」を発表
ByteDanceや北京大学などの研究チームが、動画生成AIモデル「Helios」を発表しました。
このモデルは140億パラメータという大規模な構成でありながら、NVIDIA H100 GPUを1基のみ使用して、1秒間に19.5フレームというリアルタイムでの高速な動画生成を実現しています。これは、従来よく使われていた13億パラメータ規模の軽量モデルと同等か、それ以上のスピードです。
Heliosの特徴は、数分間にわたる長尺の動画を高品質なまま生成し続けられる点にあります。これまでの動画生成モデルでは、時間が経つにつれて映像の色や形が崩れたり、動きが不自然になったりする現象が課題でした。Heliosは、特殊な補正テクニックに頼ることなく、独自の学習方法によってこの問題を克服し、安定した映像を維持できます。





Helios: Real Real-Time Long Video Generation Model
Shenghai Yuan, Yuanyang Yin, Zongjian Li, Xinwei Huang, Xiao Yang, Li Yuan
Paper|GitHub
もう外部AIには頼らない、Black Forest Labsが効率的なAI学習法「Self-Flow」発表
画像生成AIは、綺麗な絵を描くのは得意ですが、描いているモノの意味(犬とは何か、車とは何か)を深く理解しているわけではありません。
従来の生成AIは、データの意味を理解させるために外部モデル(DINOv2、SigLIP 2など)の助けを借りる手法が主流でしたが、動画や音声への応用が難しく、モデルの規模を拡大しても性能が伸び悩むという課題がありました。
Black Forest Labsの研究チームは、外部の認識モデルに依存せずに、画像・動画・音声を高精度に生成できるAI学習手法「Self-Flow」を発表しました。
本手法では、入力データに「強いノイズ」と「弱いノイズ」を混在させる独自の仕組みを導入し、あえて情報に偏りを作ることで、AIはノイズの少ない綺麗な部分をヒントに全体を推測するようになり、データ本来の構造や文脈を自発的に深く学習します。
その結果、複雑な画像の描写や正確な文字の生成、動画の滑らかさ、音声の品質において、従来手法を大きく上回る成果を挙げました。






Self-Supervised Flow Matching for Scalable Multi-Modal Synthesis
Hila Chefer, Patrick Esser, Dominik Lorenz, Dustin Podell, Vikash Raja, Vinh Tong, Antonio Torralba, Robin Rombach
Paper|Blog
個人情報やサーバ権限などを与えた自律型AIエージェントによる2週間の大暴走実録
AIエージェントの安全性を調査するための実験を行った研究論文「Agents of Chaos」が、ノースイースタン大学やハーバード大学、スタンフォード大学などに所属する研究者らによって発表されました。
この研究では、20人の研究者が2週間にわたり、自律型AIエージェントに次のような権限を与えました。長期記憶システム、メールアカウントでの送受信、Discordアカウントでのチャット、コマンドの実行、ファイルへの読み書きです。
権限を与えたAIエージェントに対してレッドチームテスト(意図的にシステムの弱点を探るテスト)を実施しました。その結果、エージェントによる11の失敗事例が示されました。
具体的には、エージェントが第三者の非管理者(攻撃者)からの指示に安易に従い、機密情報(社会保障番号や銀行口座情報など)を含むメールを無断で開示してしまうケースが確認されました。これは銀行口座情報を教えてと直接言われても教えないが、銀行口座情報が書かれたメールなら教えてしまう事例です。
次に、非管理者から「秘密を守ってほしい」と頼まれたエージェントが、その秘密を隠蔽するために所有者のメールサーバー環境を独断で初期化してしまうという事例も報告されました。
次に、非管理者がエージェント2体に「お互いに返信し合って」と仕向けると、無限ループの会話に9日間も陥り計算リソースを大量に消費しました。
次に、非管理者がAIエージェントに会話履歴を記憶するよう指示し、約10MBの添付ファイルを連続送信してサーバリソースを枯渇させる実験を行いました。その結果、エージェントが所有者に無断でファイルを肥大化させたことで、わずか10通のメールでサーバーがDoS状態に陥りました。
他にも、AI同士が連携する場面では、攻撃者によって書き換えられた偽のルールを別のAIに自発的に共有したり、詐欺的な攻撃を受けた際にAI同士で誤った論理を肯定し合うエコーチェンバー現象も確認されました。




Agents of Chaos
Natalie Shapira, Chris Wendler, Avery Yen, Gabriele Sarti, Koyena Pal, Olivia Floody, Adam Belfki, Alex Loftus, Aditya Ratan Jannali, Nikhil Prakash, Jasmine Cui, Giordano Rogers, Jannik Brinkmann, Can Rager, Amir Zur, Michael Ripa, Aruna Sankaranarayanan, David Atkinson, Rohit Gandikota, Jaden Fiotto-Kaufman, EunJeong Hwang, Hadas Orgad, P Sam Sahil, Negev Taglicht, Tomer Shabtay, Atai Ambus, Nitay Alon, Shiri Oron, Ayelet Gordon-Tapiero, Yotam Kaplan, Vered Shwartz, Tamar Rott Shaham, Christoph Riedl, Reuth Mirsky, Maarten Sap, David Manheim, Tomer Ullman, David Bau
Paper










