生成AIグラビアをグラビアカメラマンが作るとどうなる?第61回:快適にZ-Image-Baseを使う方法、そして左から右に生成するBitDance(西川和久)

テクノロジー AI
西川和久

1962年生まれ。プログラマー、IT系ライター、カメラマン(主にグラビア)と、三足の草鞋になってもう四半世紀。

特集

生成AIグラビアをグラビアカメラマンが作るとどうなる? 連載記事一覧

快適にZ-Image-Baseを使うには?

前回、Z-Image-Baseについていろいろ書いた。Trained/Merge ModelやLoRAは増え続けているが特にこれといったものはなく、個人的にはbf16 + 自作LoRAが一番しっくりくる感じだ。


ただ標準的な50 Steps / CFG 4.0だと、RTX 5090でさえ1024x1536ピクセルが分に近い時間がかかり、気軽にガチャる気分にはなれない。

そんな時に有効なのが前回ご紹介したEasy Cacheとの併用reuse_threshold0.2~0.4にすると2倍ちょっと高速化できる。細かい部分が違う程度なので、これ!という一枚が出た時だけEasy Cacheをバイパスして、同じseedで生成すればガチャる時間は短縮できる。

もう一つの方法は蒸留化LoRAを使うこと。前回Z-Image-Distilledをご紹介したが、その後?に出たZ-Image-Fun-Distill-ComfyUIの方が調子いい。

  • Z-Image-Fun-Lora-Distill-8-Steps_ComfyUI_v1.safetensors

  • Z-Image-Fun-Lora-Distill-8-Steps-2602_UDCAI_ComfyUI.safetensors

リポジトリには2つLoRAがあり、試したところ後者の方がいいだろうか? 使い方としては、Base推奨がres_multistep / simpleに対してeuler / simpleにすること。Stepは8(筆者は10にしている)、CFG 1.0となる。加えてstrengthは0.5~0.6だろうか(お好みで)。

以下、比較でBaseZ-Image-Distilled8-Steps_ComfyUI_v18-Steps-2602_UDCAI_ComfyUIの順に掲載する。設定はBase res_multistep / simple / 50 Steps / CFG 4.0、その他はeuler / simple / 8 Steps / CFG 1.0。strength 0.6。また自作の顔LoRAを0.6で入れている。

Z-Image-Base
Z-Image-Distilled
8-Steps_ComfyUI_v1
8-Steps-2602_UDCAI_ComfyUI

二重露光のポートレートだがBaseは流石。Z-Image-Distilledは悪くないが顔が変わる。8-Steps_ComfyUI_v1は硬調。8-Steps-2602_UDCAI_ComfyUIはBaseに近いといえば近い。

いずれにしても蒸留化するとBase固有の抜けの良さが薄れるのは仕方ないところ。今回はたまたま肌や桜の花の色など、抜けが気になる絵柄になっているが、生成する絵によってはあまり気にならないケースもある。現状、8-Steps-2602_UDCAI_ComfyUIがお勧めの蒸留化LoRAといえよう。

BitDance

BitDanceはちょっと変わった生成AI画像モデル。Stable Diffusionなど通常の生成AI画像は、拡散モデルと呼ばれ、”ノイズ→画像”を何十Stepもかけて生成する。

ところがこのBitDanceはテキストのように画像を「左から右へ順番に生成」し、AutoRegressive(AR)モデルとなっている。つまり推論的にはLLMと同じ動きとなる。

従来のARモデルでは”1 tokenずつ”生成するため非常に遅かったが、BitDanceは独自のバイナリトークナイザー + 次パッチ拡散により一度に64トークンを予測。従来ARモデルより30倍以上高速化に成功している。パラメータ数は14B

ただこの関係で、

[1024, 1024], [1152, 896], [896, 1152], [1280, 768], [768, 1280], [1536, 640], [640, 1536], [1920, 512], [512, 1920], [2048, 512], [512, 2048]

と、対応する縦横ピクセル数が固定されており、ありがちな832x1,216ピクセルなどが使えないのは痛いところか。

リリースから少し経つがComfyUIは未対応のまま。しかたなくGitHubにあるapp.pyを使って生成したのが以下の通り(ちょっと手を加えdiffusers版で生成)。

GitHubにあるapp.pyをdiffusers版に改造し起動
BitDance作例1
BitDance作例2
BitDance作例3
BitDance作例4

正直、Z-Imageなどの絵を見慣れていると何のことはない絵なのだが、LLMのように左から右に生成していると思うとちょっと面白かったりする。

最大の問題は、このapp.pyを使う方法だとVRAMを40GB以上必要なこと。手元にDGX Spark互換機(128GB)とRTX 4090改造(48GB)があったので何とか試せた。後者で30秒。ARモデルとしては速いらしいが、一般的な生成AI画像とだと速くもない。こんなのもある!的に覚えておいていただければと思う。

と、書いてる間にWorkflow登場!(笑)。使い方は簡単。custom_nodesへgit cloneして、以下3つモデルをdiffusion_models、text_encoders、vaeへ入れ、ここからWorkflowをダウンロードすれば良い。

  • BitDance_14B_MainModel_FP8.safetensors

  • BitDance_TextEncoder_FP8.safetensors

  • BitDance_VAE_FP16.safetensors

面白いことにdiffusion modelがたった1.89GBに対してtext encodeが18.8GB通常と逆だ。この辺りはARモデル固有なのだろう。

BitDance用Workflow

RTX 5090、768x1280ピクセルで約50秒。VRAMはoff loadしない場合、23GBほど使うのでRTX 4090で何とか……というところだろうか。加えて50 Stepsのサンプラーが何度も動くのがなるほど……というところ。左から順に書いてると思われる。

Anima

もう一つはAnima。名前の通りアニメ/イラスト系のモデルだ。この連載はリアル美女を基本にしているため(笑)、アニメ/イラスト系のモデルは紹介していないのだが、今回扱ったのには理由がある。それは、

CircleStone LabsとComfy Org(ComfyUI運営)が共同開発した、ComfyUI初の公式スポンサードモデル

だからだ。Comfy Orgが絡んでいるとなると試したくなのるは道理(笑)。特徴は、

  • パラメータ数: 2B

  • ベースアーキテクチャ: NVIDIA Cosmos-Predict2-2B-Text2Imageの派生モデル

  • テキストエンコーダー: Qwen3-0.6B

  • モデルサイズ: 合計約5.63GB(safetensors)

  • Prompt: @アーティスト名 でアーティスト指定ができたり、PONYでお馴染みのscore_5なども使える

となる。プロンプトの書き方は、Danbooru系のタグベースPromptが基本で(自然言語でもOK)、(リアル系を除く)SDXLからの置き換えを狙っている感じだろうか。LoRAはお馴染みkohya-ss/sd-scripts対応済み。WorkflowはComfyUIのテンプレートに用意されている(要Update)。特殊な部分はなく、Negative Promptありで30 Steps/CFG 4.0となっている。

AnimaのWorkflow
Anima作例1
Anima作例2
Anima作例3
Anima作例4

現在プレビュー版だが、アニメ/イラスト系が好きな人にとってはIllustrious以来の大物登場!といったところではないだろうか。

今回締めのグラビア

今回締めのグラビアは、扉と共にZ-Image-Base + 8-Steps-2602_UDCAI_ComfyUIを使い高速で生成している。

パラメータは、euler / simple / 10 Steps / CFG 1.0。strength 0.6。また自作の顔LoRAを0.6入れている。RTX 5090を使い1280x1920ピクセルを8.6秒。これならいくらでもガチャれる速度だ(笑)。Base本来の雰囲気も然程薄れていない。

Z-Image-Base + 8-Steps-2602_UDCAI_ComfyUIを使用したグラビア!

桜、まだ早いのでは!?と思われる読者の方も多いと思うが、渋谷川沿い、西郷山公園の中央1本、そして代官山TSUTAYAは早咲きでもうほぼ満開。そして一月後には明治通り沿いや目黒川沿いなど、普通に咲き出す。後ちょっとで春♪

生成AIグラビアをグラビアカメラマンが作るとどうなる? 連載記事一覧

《西川和久》

西川和久

1962年生まれ。プログラマー、IT系ライター、カメラマン(主にグラビア)と、三足の草鞋になってもう四半世紀。

特集

BECOME A MEMBER

『テクノエッジ アルファ』会員募集中

最新テック・ガジェット情報コミュニティ『テクノエッジ アルファ』を開設しました。会員専用Discrodサーバ参加権やイベント招待、会員限定コンテンツなど特典多数です。