再生中に動画内の人や物を好きに動かせるAdobeの編集AI「MotionStream」、イーロンの「Grokipedia」と「Wikipedia」は何が違うのか、など生成AI技術5つを解説(生成AIウィークリー)

テクノロジー AI
山下裕毅(Seamless)

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。

特集

この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する今回の「生成AIウィークリー」(第120回)は、「トークン単位」ではなく「複数トークンの塊」で予測する計算効率を改善する技術「CALM」や、推論AIに複雑なパズルを解かせた後には有害な答えを生成するジェイルブレイク攻撃を取り上げます。

また、動画を再生しながら映像内の人や物を自在に動かせるAdobeの編集AI「MotionStream」や、イーロン・マスクの「Grokipedia」と「Wikipedia」がどれくらい類似し何が違うのかを調査した研究をご紹介します。

そして、生成AIウィークリーの中でも特に興味深いAI技術や研究にスポットライトを当てる「生成AIクローズアップ」では、能力がある人とない人の仕事の増減をAI普及の前後で調査した研究を別の単体記事で取り上げています。



「長く考えさせる」とAIは混乱し、タブーを解答し出す。新しいジェイルブレイク攻撃「Chain-of-Thought Hijacking」登場

本研究では、大規模言語モデル(LLM)の推論する能力を悪用する新しいジェイルブレイク攻撃「CoT Hijacking」を提案します。この攻撃は、有害な指示の前に、無関係で無害な非常に長い推論(例えば、複雑な論理パズル)を付け加えるという単純な手法です。

これにより、モデルは有害な回答を出力してしまうといいます。実験の結果、Gemini 2.5 Pro、GPT o4 mini、Grok 3 mini、Claude 4 Sonnetといった主要な最新モデルに対し、94%から100%という非常に高い攻撃成功率を達成しました。これは、従来の攻撃手法を大幅に上回るものです。

分析の結果、モデルが長い無害な推論を行うと、後から来る有害な指示に対する「注意」が分散してしまうことが分かりました。これにより、モデル内部の安全性をチェックするメカニズムが低下し、拒否信号が弱まり、有害な要求が実行されてしまいます。

Chain-of-Thought Hijacking
Jianli Zhao, Tingchen Fu, Rylan Schaeffer, Mrinank Sharma, Fazl Barez
Paper

「トークン単位」ではなく「複数トークンの塊」で予測する、計算効率を改善する技術「CALM」

現在の言語モデルは、文章を生成する際に「トークン」と呼ばれる単語の断片を一つずつ順番に予測しています。長い文章を生成する場合、数百から数千のステップが必要となり、これが計算コストと生成時間の両面で大きなボトルネックになっています。

Tencent WeChatのAI研究チームによって開発された技術「CALM」(Continuous Autoregressive Language Models)は、複数のトークンを一つの連続ベクトルに圧縮し、トークン単位ではなくベクトル単位(複数トークンの塊)で予測を行います。例えば、4つのトークンを1つのベクトルにまとめることで、生成に必要なステップ数を4分の1に削減できます。

また、このベクトルから元のトークンを高忠実度で再構築するように訓練されたオートエンコーダーを用いており、99.9%以上の再構築精度を達成しています。

実験結果は、4トークンを1ベクトルに圧縮する設定において、371MパラメータのCALM-Mモデルは、従来のTransformerモデル(281Mパラメータ)と同等の性能を維持しながら、訓練時の計算量を44%、推論時の計算量を34%削減することに成功しました。

Continuous Autoregressive Language Models
Chenze Shao, Darren Li, Fandong Meng, Jie Zhou
Paper | GitHub | Blog

再生中に動画内の人や物を動かせる編集AI「MotionStream」をAdobeなどが開発

Adobe Researchなどの研究チームは、ユーザーがリアルタイムで動きを操作しながら動画を生成できるAI技術「MotionStream」を発表しました。

従来のモーション制御付きビデオ生成モデルは、数秒の動画を生成するのに数分かかるなど処理が遅く、また動画全体を一度に処理する仕組みであったため、リアルタイムでのインタラクティブな操作は困難でした。

MotionStreamは、この問題を解決するために開発されたストリーミング型の生成モデルです。単一のNVIDIA H100 GPUで、1秒あたり約29フレーム(FPS)の処理と1秒未満の低遅延を実現し、ユーザーがマウスでオブジェクトをドラッグしたり、カメラの動きを指定したりすると、その結果が即座に動画に反映されます。

時間とともに品質が低下したり処理が遅くなったりするという、長い動画を生成する際の課題を克服するため仕組みを導入しました。これにより、モデルは常に最初のフレームと直近の数フレームにのみ注目を集中させ、エラーの蓄積を防ぎながら、ほぼ無限の長さの動画でも一定の速度で高品質な生成を維持できます。

MotionStream: Real-Time Video Generation with Interactive Motion Controls
Joonghyuk Shin, Zhengqi Li, Richard Zhang, Jun-Yan Zhu, Jaesik Park, Eli Schechtman, Xun Huang
Project | Paper | GitHub

イーロン・マスクの「Grokipedia」と「Wikipedia」はどれくらい似ており、何が違うのか? 1800記事を徹底比較してみた

Grokipediaは、Wikipediaに存在する思想的・構造的な偏りへの対応として2025年10月に、イーロン・マスク率いるxAIがリリースしました。しかし、AI主導のプラットフォームが、人間が編集するプラットフォームの限界や偏りを本当に回避できるかは明らかではありません。

この研究では、Wikipediaで最も編集回数の多い記事から選ばれた1800件の記事ペアを対象に、GrokipediaとWikipediaの大規模な計算論的比較を行いました。分析は、語彙の豊富さ、可読性、構造的な構成、参照(出典)の密度、そして意味の類似性といった多角的な指標を用いて実施されました。

分析の結果、Grokipediaは意味論的にも文体的にもWikipediaと非常に強く類似していることが明らかになりました。つまり、書かれている内容やトピックの扱いは、Wikipediaと非常に似ている傾向がありました。

しかし、同時に顕著な違いも確認されました。Grokipediaの記事は、Wikipediaの対応する記事よりも体系的に長い傾向がありました。分析対象となったサンプルでは、Wikipediaの記事の平均語数が約9400語だったのに対し、Grokipediaは約1万4200語でした。

一方で、Grokipediaの記事はWikipediaに比べて語彙の多様性が低く、構文はより複雑で読みにくい(可読性スコアが低い)ことが示されました。さらにGrokipediaは、1000語あたりの参照(出典)、リンク、見出しの数が、Wikipediaよりも著しく少ないことが判明しました。

How Similar Are Grokipedia and Wikipedia?A Multi-Dimensional Textual and Structural Comparison
Taha Yasseri
Paper


《山下裕毅(Seamless)》

山下裕毅(Seamless)

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。

特集

BECOME A MEMBER

『テクノエッジ アルファ』会員募集中

最新テック・ガジェット情報コミュニティ『テクノエッジ アルファ』を開設しました。会員専用Discrodサーバ参加権やイベント招待、会員限定コンテンツなど特典多数です。