“漢字”を正確に描画する生成AI「Qwen-Image」、5秒間の動画を4090なら21秒で生成するAI「FastWan」など生成AI技術5つを解説(生成AIウィークリー)

テクノロジー AI
山下裕毅(Seamless)

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。

特集

この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する今回の「生成AIウィークリー」(第108回)は、画像生成の原理で言語を生成するAIモデル「Seed Diffusion Preview」や、画像内のテキストを正確に描画する画像生成AI「Qwen-Image」を取り上げます。

また、RTX 4090なら21秒で5秒間のビデオを生成する動画生成AI「FastWan」と、NVIDIAが「LLMよりSLMが主流になる」と主張した論文をご紹介します。

そして、生成AIウィークリーの中でも特に興味深いAI技術や研究にスポットライトを当てる「生成AIクローズアップ」では、大規模言語モデル(LLM)の「思考の連鎖」(Chain-of-Thought, CoT)推論能力が幻想だと主張した研究論文を別の単体記事で取り上げています。



画像生成の原理で言語を生成するAIモデル「Seed Diffusion Preview」を中国バイトダンスなどが開発

ByteDance Seedチームと清華大学の研究グループが、従来とは全く異なる仕組みで動く言語モデル「Seed Diffusion Preview」を発表しました。このモデルは、従来の文章を1文字ずつ順番に生成するのではなく、複数の単語を同時に生成できる列処理を行います。それにより、H20 GPU上で毎秒2146トークンという推論速度を実現しています。

従来の大規模言語モデルは左から右へと一語ずつ生成する自己回帰的手法を採用していましたが、Seed Diffusionは画像生成で成功した拡散モデルの原理を自然言語処理に応用しました。最初はノイズだらけの文章から始めて、徐々にきれいな文章に仕上げていく方法です。

HumanEvalやMBPPなどの標準的なコード生成ベンチマークで評価した結果、同規模の従来型モデルと同等の性能を達成しながら、大幅な高速化を実現しています。特にコード編集タスクでは従来モデルを上回る性能を示しました。

Seed Diffusion: A Large-Scale Diffusion Language Model with High-Speed Inference
Yuxuan Song, Zheng Zhang, Cheng Luo, Pengyang Gao, Fan Xia, Hao Luo, Zheng Li, Yuehang Yang, Hongli Yu, Xingwei Qu, Yuwei Fu, Jing Su, Ge Zhang, Wenhao Huang, Mingxuan Wang, Lin Yan, Xiaoying Jia, Jingjing Liu, Wei-Ying Ma, Ya-Qin Zhang, Yonghui Wu, Hao Zhou
Project | Paper

画像内テキストを正確に描画する画像生成AI「Qwen-Image」、漢字も高精度に生成

Qwenチームは画像生成モデル「Qwen-Image」を発表しました。このモデルは、生成画像内に登場する複雑なテキストや画像編集において進歩を遂げています。

特徴は、画像内に複雑なテキストを正確に描画できることです。英語だけでなく、従来のモデルが苦手としていた中国語などの表意文字も高精度で生成可能です。

技術的には、Qwen-Imageは200億パラメータのMMDiT(Multimodal Diffusion Transformer)アーキテクチャを採用し、Qwen2.5-VLを条件エンコーダーとして使用しています。また、画像と動画の両方に対応可能な共有エンコーダーを持つVAE(Variational AutoEncoder)を活用し、動画生成への拡張も視野に入れた設計となっています。

段階的な学習戦略により、非テキストからテキスト、単純から複雑へと徐々にスケールアップし、最終的に段落レベルの記述まで処理できるようになりました。

ベンチマーク評価では、Qwen-Imageは複数の公開ベンチマークで最先端の性能を達成しています。例えば、DPGベンチマークではQwen-Imageが88.32という最高スコアを達成し、Seedream 3.0の88.27をわずかに上回り、GPT Image 1 [High]の85.15やFLUX.1 [Dev]の83.84を大きく引き離しています。中国語テキストレンダリングにおいては、Qwen-Imageの圧倒的な優位性が示されています。

Qwen-Image Technical Report
Chenfei Wu, Jiahao Li, Jingren Zhou, Junyang Lin, Kaiyuan Gao, Kun Yan, Sheng-ming Yin, Shuai Bai, Xiao Xu, Yilei Chen, Yuxiang Chen, Zecheng Tang, Zekai Zhang, Zhengyi Wang, An Yang, Bowen Yu, Chen Cheng, Dayiheng Liu, Deqing Li, Hang Zhang, Hao Meng, Hu Wei, Jingyuan Ni, Kai Chen, Kuan Cao, Liang Peng, Lin Qu, Minggang Wu, Peng Wang, Shuting Yu, Tingkun Wen, Wensen Feng, Xiaoxiao Xu, Yi Wang, Yichang Zhang, Yongqiang Zhu, Yujia Wu, Yuxuan Cai, Zenan Liu
Paper | GitHub

RTX 4090なら21秒で5秒間のビデオを生成する動画生成AI「FastWan」

カリフォルニア大学サンディエゴ校のHao AIラボが、動画生成モデル「FastWan」を発表しました。この技術の特徴は、5秒の動画をわずか5秒で生成できる速度です。

FastWan2.1-1.3Bモデルは単一のH200 GPUで5秒間の480P動画を5秒で、RTX 4090でも21秒で生成可能です。デノイジング処理時間は1秒という速さです。より大規模なFastWan2.2-5Bは720P動画を16秒で生成します。

FastWanのコア技術は「sparse distillation」(スパース蒸留)と呼ばれる新しい訓練手法です。従来の動画生成モデルは、50回ものデノイジングステップと膨大な計算量を必要としていましたが、FastWanはこれを1~4ステップまで圧縮することに成功しました。

また、開発した「Video Sparse Attention」(VSA)は重要なトークンを動的に識別し、計算量を削減しながら品質を維持します。従来のスパースアテンション手法が蒸留技術と互換性がなかった問題を、VSAは学習ベースのアプローチで解決しました。

FastWan: Generating a 5-Second Video in 5 Seconds via Sparse Distillation
UCSD Hao AI Lab
Project | GitHub | Blog

NVIDIA「巨大AIより小型AIが主流になる」と主張。LLMをSLMに変換する手法も開発

NVIDIA Researchの研究チームが、AIエージェントシステムの将来は大規模言語モデル(LLM)ではなく、小規模言語モデル(SLM)にあるという論文を発表しました。

エージェントシステムで行われるタスクの多くは、特定のタスクを繰り返し行う専門的なものであると指摘します。汎用的な会話能力を持つ巨大なLLMは、このような特定の用途には過剰であり、より小さく、効率的で、経済的なSLMの方が適しているという考えです。

70億パラメータのSLMは1750億パラメータのLLMと比較して、レイテンシやエネルギー消費において10~30倍も効率的です。さらに、専門分野を持つ小さなAIをレゴのように組み合わせるモジュール方式により、より安価で高速なエージェントシステムの構築が可能になります。

研究チームは既存のLLMベースシステムをSLMに移行する具体的な手法も提案しています。実際にMetaGPT、Open Operator、Cradleという3つの人気エージェントを分析したところ、40~70%のLLMクエリがSLMで置き換え可能であることが判明しました。

Small Language Models are the Future of Agentic AI
Peter Belcak, Greg Heinrich, Shizhe Diao, Yonggan Fu, Xin Dong, Saurav Muralidharan, Yingyan Celine Lin, Pavlo Molchanov
Paper


《山下裕毅(Seamless)》

山下裕毅(Seamless)

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。

特集

BECOME A MEMBER

『テクノエッジ アルファ』会員募集中

最新テック・ガジェット情報コミュニティ『テクノエッジ アルファ』を開設しました。会員専用Discrodサーバ参加権やイベント招待、会員限定コンテンツなど特典多数です。