生成AIグラビアをグラビアカメラマンが作るとどうなる？第51回：Qwen-Image旋風だった2025年8月まとめ（西川和久）

2025年8月

前回は2025年6月と7月の主な生成AI画像系をまとめたので、今回は8月のリリースなどを時系列順に掲載。

生成AIグラビアをグラビアカメラマンが作るとどうなる？第50回：2025年夏、画像AIに何が起こっていたのか。6月＆7月まとめ（西川和久） | テクノエッジ TechnoEdge

6～8月、休載していたこともあり、今回と次回はこの間リリースされたものなどを順にご紹介し、現時点=9月に追い付きたいと思う。まず6月から。

https://www.techno-edge.net/article/2025/09/22/4605.html続きを読む »

9月も今回まとめる予定だったが、長くなったので次回としたい。お許しを……。

8月冒頭は7月末にリリースされた動画用のWan 2.2を使いtxt2imgして遊んでいた。そんな中の8月5日、何の前触れもなく、同じくアリババがリリースしたのが生成AI画像のQwen-Image。ライセンスはApache 2.0。加えて20Bと言う生成AI画像用のモデルとしては最大級だ。

早速試そうと思ったものの”VRAM 40GB使用、生成時間はRTX A6000で約3分”。RTX 5090を搭載したPCでも扱えないほどのVRAM使用量と生成時間。「うーん」と言う感じでその後の展開を見守っていた（笑）。

ちょっと謎なのは同社、動画系はWan、LLMはQwenと分けていたのだが、なぜ画像系をQwenとしたのか？というところ。

とりあえずデモサイトがあったのでそこで生成。Wan 2.2 txt2imgと同じPromptで比較したのが以下の通り。

Wan 2.2 txt2img
Qwen-Image

これを見る限り、(Wan 2.1/2.2 txt2imgの欠点として気付いていたが)Wan 2.2の絵は綺麗なのだがちょっと平面的。Qwen-Imageはこの部分が改善されている。とはいえ、発色はよく似ている傾向だろうか。

同日、Fal.aiなどサービス系が続々対応したのだが、ここはじっと我慢し、ComfyUI対応を待ったところ、やはり同日中に bf18とfp8版のモデルが公開され、もっと少ないVRAM容量でも作動できる環境が整い、それから数時間後、ComfyUIが正式対応した。

ここまでサラッと書いたがとにかく8月5日は目まぐるしい1日だった。

環境が整い、早速ComfyUIで生成開始。Workflowはこんな感じと、ComfyUI本体が対応したのでシンプルになる。

Qwen-Image作例1	Qwen-Image作例2
Qwen-Image作例3	Qwen-Image作例4

RTX 5090を使い、fp8、1,024x1,536px、20 steps、cfg 1で約17秒、VRAM 約21GB使用。FLUX.1 [dev]よりは遅いもののローカルでも動くようになった。

8月6日はai-toolkitがQwen-Imageに対応したので早速Google Colab（A100/40GB）で顔LoRAの学習。1～2時間程度かかるが問題なく作動した。

その後、WaveSpeed AIがQwen-ImageのLoRAあり生成及びLoRA学習に対応したので試したところ、LoRA一つ作るのに10分未満でたった$1。加えてdatasetをzipにしてアップロードするだけ……と、あまりにもお手軽なので、以降、こちらを使うようになった。

8月10日、Wan 2.1/2.2でもお馴染み高速化LoRA、Qwen-Image-Lightningがリリース。通常20 steps以上かかるところを、8 stepsまたは4 stepsへ短縮。生成時間はsteps数に比例するため8 stepsなら倍以上の速度で生成可能になる。約8秒の爆速へ。なお 4 stepsは速いが流石に少しアラが目立つので使っていない。

この生成速度ならFLUX.1 [dev]とほぼ同速度。いろいろ生成して楽しんだのは言うまでもない（笑）。

余談になるが8月15日、Gooogleの生成AI画像モデルの新型Imagen 4もリリースされた。$0.02/1枚と安価で性能も良いので使いたいのだが、水着系すら検閲に引っかかるので筆者の用途には合わず残念。

8月19日、Qwen-Image-Editリリース。オリジナルモデルはやはりVRAM 40GB必要なので、bf16やfp8版を待っていたところ、これも同日掲載、ComfyUIも対応した。Workflowは以下の通り