生成AIグラビアをグラビアカメラマンが作るとどうなる?第52回:オープン画像生成AIが怒涛の登場果たした2025年9月(西川和久)

テクノロジー Science
西川和久

1962年生まれ。プログラマー、IT系ライター、カメラマン(主にグラビア)と、三足の草鞋になってもう四半世紀。

特集

生成AIグラビアをグラビアカメラマンが作るとどうなる? 連載記事一覧

2025年9月9日 HunyuanImage-2.1

前回は2025年8月の主な生成AI画像系をまとめたので今回は9月。やっと追いついた感じだ。

Qwen-Imageで大物txt2imgは終わりかなと思っていた矢先の9月9日HunyuanImage-2.1 がリリース。17Bパラメータ、テキストエンコーダーに qwen_vl_2.5_7b を採用、2K(2048×2048px)出力……と、なかなかの大作。refinerやPrompt拡張も内包している。LLMをまんま使っているため(7bで理解できる範囲なら)日本語でのPromptもOKだ。当初そのままでは大きく動かせないため、デモサイトで少し触った後は、ComfyUIの対応を待っていた。

9月10日ComfyUIが対応。これによって簡単なWorkflowで生成可能に。作例からも分かるように、絵柄はFLUX.1 [dev]と言うより、Qwen-Imageの方が近いだろうか。

HunyuanImage-2.1のWorkflow
同一PromptでHunyuanImage-2.1とQwen-Imageの比較(1)
同一PromptでHunyuanImage-2.1とQwen-Imageの比較(2)
  1. HunyuanImage-2.1

  2. Qwen-Image

作例1
作例2
作例3
作例4

9月12日、顔LoRA学習でお世話になっている sd-script が HunyuanImage-2.1 に対応。早速試したが、同一設定で顔は変わるものの似ていない。調べるとLoRAロード時に大量のエラー、どうやらComfyUIのLoRAフォーマットではなかったらしく、コンバータを作っていただきOKとなった。

またこれまでLoRAを作る時のデータセットは1024x1024pxだったが、このHunyuanImage-2.1に関しては2048x2048pxの画像が必要になり、本体だけではなく、LoRAでさえも一段パワーアップしている。

1
2
  1. 顔LoRA無し

  2. 同一設定で顔LoRAあり(LoRAっ子2号)

当たればなかなかの絵なのだが、RTX 5090(32GB)を使っても1536x2304pxが40秒前後(steps 20)。checkpointのみfp8でVRAM 30GB少し使用……と重いのは変わらず、結果現在メインはQwen-Imageとなっている。

2025年9月23日 Qwen-Image-Edit-2509

上記の理由から9月のほとんどはQwen-ImageやQwen-Image-Editで遊んでいたが、9月も残り一週間となった 9月23日、いきなり Qwen-Image-Edit-2509 がリリースされた。名前の通り Qwen-Image-Editの2025年9月版となる。8月15日にQwen-Image-Editが出たばかりなのに、こんなに急いでリリースする必要があったのかは?とちょっと疑問。同日ComfyUIも対応した。

Qwen-Image-Edit と Qwen-Image-Edit-2509 の違いは

1. 複数画像入力対応
2. ControlNet対応
3. 一貫性の向上

と言ったところ。分かりやすいようにComfyUIのWorkflowで1と2を解説すると(Workflowは関係部分のみ掲載)、

複数画像入力対応
ControlNet対応

1の複数画像入力はComfyUI Node上で最大3つ設定できる。この作例では”change to front”で一旦正面にした後、”try-on”としている。従って顔や背景の一貫性は保たれているが、体の向きは変わっている。

2は例えば深度画像を設定し生成すると、その構図に応じた画像が出力される(線画などにも対応。画像から深度画像への逆変換もできる)。このように、初代Qwen-Image-Editとの違いは大きく、たった一月ほどの差であれば少し待ってこちらで出しても良かったのでは?

参照画像無しで普通に生成も可能

あまり知られていないが、Qwen-Image-Edit-2509(Qwen-Image-Editも)は、編集だけでなく、参照画像なしで普通に生成も可能だ。いろいろ確認しているのだがQwen-Imageと同レベル。であれば一本化して欲しいところだが何か見えない違いがあるのかも知れない。

なおLoRAはQwen-Image-Edit用でも使用可能。とは言え最近はQwen-Image-Edit-2509用が多く出回っているためこちらを使った方が無難だ。同様に、4|8 steps LoRAも10月7日にQwen-Image-Edit-2509用の4|8 steps LoRAがリリースされた。

また、VAEとテキストエンコーダー、4 steps LoRA全部入りのAIO、Qwen-Image-Edit-Rapid-AIO も登場。Workflowが単純になるのでこちらを使うのもありだろう(但しファイルサイズは約29GBと大きくなる)。

2025年9月28日 HunyuanImage 3.0

9月最後の最後、HunyuanImage-2.1が9月9日だったのにも関わらず、9月28日HunyuanImage 3.0がリリースされた。Qwen-Image-Edit-2509といい、この短期間でのバージョンアップは何!?状態だ。

ただし80Bパラメータとかなり巨大(Qwen-Image 20B、HunyuanImage-2.1 17B)。どう頑張っても家庭用PC + GPUでは動くはずもなく、対応しているサービスで少し試した程度。来月(11月)辺りに20Bの蒸留版が出るという噂もあるので、それを待ちたいと思う。

いかがだったろうか? 7月、8月、9月と、オープンなtxt2imgモデルが怒涛のように登場。確認するだけでも大変だった2025年夏となった。

今回締めのグラビア

今回締めのグラビアは扉とともに HunyuanImage-2.1を使用(秋雨?)。本連載扉の画像は1920x1076px必要で、SD 1.5、SDXL、FLUX.1 [dev]の頃はUpscaleして作っていた。

しかしHunyuanImage-2.1で16:9だと2560x1536px。縮小して使うことになる。連載開始から約2年、まさかこんなに早く生成AI画像を縮小して使う日が来るなど思ってもみなかった(笑)。

HunyuanImage-2.1を使用したグラビア!

以上で休載中のリカバリは終了。次回からは最新情報や面白いモデル、Workflowをご紹介する通常運行へ戻りたい。またComfyUIセミナーも今月から復活! お楽しみに。

生成AIグラビアをグラビアカメラマンが作るとどうなる? 連載記事一覧

《西川和久》

西川和久

1962年生まれ。プログラマー、IT系ライター、カメラマン(主にグラビア)と、三足の草鞋になってもう四半世紀。

特集

BECOME A MEMBER

『テクノエッジ アルファ』会員募集中

最新テック・ガジェット情報コミュニティ『テクノエッジ アルファ』を開設しました。会員専用Discrodサーバ参加権やイベント招待、会員限定コンテンツなど特典多数です。