生成AIグラビアをグラビアカメラマンが作るとどうなる？第61回：快適にZ-Image-Baseを使う方法、そして左から右に生成するBitDance（西川和久）

快適にZ-Image-Baseを使うには？

前回、Z-Image-Baseについていろいろ書いた。Trained/Merge ModelやLoRAは増え続けているが特にこれといったものはなく、個人的にはbf16 + 自作LoRAが一番しっくりくる感じだ。

生成AIグラビアをグラビアカメラマンが作るとどうなる？第60回：遂に登場したZ-Image-Baseの破壊力！（西川和久） | テクノエッジ TechnoEdge

https://www.techno-edge.net/article/2026/02/14/4866.html続きを読む »

ただ標準的な50 Steps / CFG 4.0だと、RTX 5090でさえ1024x1536ピクセルが分に近い時間がかかり、気軽にガチャる気分にはなれない。

そんな時に有効なのが前回ご紹介したEasy Cacheとの併用。reuse_thresholdを0.2～0.4にすると2倍ちょっと高速化できる。細かい部分が違う程度なので、これ！という一枚が出た時だけEasy Cacheをバイパスして、同じseedで生成すればガチャる時間は短縮できる。

もう一つの方法は蒸留化LoRAを使うこと。前回Z-Image-Distilledをご紹介したが、その後？に出たZ-Image-Fun-Distill-ComfyUIの方が調子いい。

Z-Image-Fun-Lora-Distill-8-Steps_ComfyUI_v1.safetensors
Z-Image-Fun-Lora-Distill-8-Steps-2602_UDCAI_ComfyUI.safetensors

リポジトリには2つLoRAがあり、試したところ後者の方がいいだろうか？　使い方としては、Base推奨がres_multistep / simpleに対してeuler / simpleにすること。Stepは8（筆者は10にしている）、CFG 1.0となる。加えてstrengthは0.5～0.6だろうか（お好みで）。

以下、比較でBase、Z-Image-Distilled、8-Steps_ComfyUI_v1、8-Steps-2602_UDCAI_ComfyUIの順に掲載する。設定はBase res_multistep / simple / 50 Steps / CFG 4.0、その他はeuler / simple / 8 Steps / CFG 1.0。strength 0.6。また自作の顔LoRAを0.6で入れている。

Z-Image-Base	Z-Image-Distilled
8-Steps_ComfyUI_v1	8-Steps-2602_UDCAI_ComfyUI

二重露光のポートレートだがBaseは流石。Z-Image-Distilledは悪くないが顔が変わる。8-Steps_ComfyUI_v1は硬調。8-Steps-2602_UDCAI_ComfyUIはBaseに近いといえば近い。

いずれにしても蒸留化するとBase固有の抜けの良さが薄れるのは仕方ないところ。今回はたまたま肌や桜の花の色など、抜けが気になる絵柄になっているが、生成する絵によってはあまり気にならないケースもある。現状、8-Steps-2602_UDCAI_ComfyUIがお勧めの蒸留化LoRAといえよう。

BitDance

BitDanceはちょっと変わった生成AI画像モデル。Stable Diffusionなど通常の生成AI画像は、拡散モデルと呼ばれ、”ノイズ→画像”を何十Stepもかけて生成する。

ところがこのBitDanceはテキストのように画像を「左から右へ順番に生成」し、AutoRegressive（AR）モデルとなっている。つまり推論的にはLLMと同じ動きとなる。

従来のARモデルでは”1 tokenずつ”生成するため非常に遅かったが、BitDanceは独自のバイナリトークナイザー + 次パッチ拡散により一度に64トークンを予測。従来ARモデルより30倍以上高速化に成功している。パラメータ数は14B。

ただこの関係で、

[1024, 1024], [1152, 896], [896, 1152], [1280, 768], [768, 1280], [1536, 640], [640, 1536], [1920, 512], [512, 1920], [2048, 512], [512, 2048]

と、対応する縦横ピクセル数が固定されており、ありがちな832x1,216ピクセルなどが使えないのは痛いところか。

リリースから少し経つがComfyUIは未対応のまま。しかたなくGitHubにあるapp.pyを使って生成したのが以下の通り（ちょっと手を加えdiffusers版で生成）。

BitDance作例1	BitDance作例2
BitDance作例3	BitDance作例4

正直、Z-Imageなどの絵を見慣れていると何のことはない絵なのだが、LLMのように左から右に生成していると思うとちょっと面白かったりする。

最大の問題は、このapp.pyを使う方法だとVRAMを40GB以上必要なこと。手元にDGX Spark互換機（128GB）とRTX 4090改造（48GB）があったので何とか試せた。後者で30秒。ARモデルとしては速いらしいが、一般的な生成AI画像とだと速くもない。こんなのもある！的に覚えておいていただければと思う。

と、書いてる間にWorkflow登場！（笑）。使い方は簡単。custom_nodesへgit cloneして、以下3つモデルをdiffusion_models、text_encoders、vaeへ入れ、ここからWorkflowをダウンロードすれば良い。

BitDance_14B_MainModel_FP8.safetensors
BitDance_TextEncoder_FP8.safetensors
BitDance_VAE_FP16.safetensors

面白いことにdiffusion modelがたった1.89GBに対してtext encodeが18.8GB。通常と逆だ。この辺りはARモデル固有なのだろう。

RTX 5090、768x1280ピクセルで約50秒。VRAMはoff loadしない場合、23GBほど使うのでRTX 4090で何とか……というところだろうか。加えて50 Stepsのサンプラーが何度も動くのがなるほど……というところ。左から順に書いてると思われる。

Anima

もう一つはAnima。名前の通りアニメ/イラスト系のモデルだ。この連載はリアル美女を基本にしているため（笑）、アニメ/イラスト系のモデルは紹介していないのだが、今回扱ったのには理由がある。それは、

CircleStone LabsとComfy Org（ComfyUI運営）が共同開発した、ComfyUI初の公式スポンサードモデル

だからだ。Comfy Orgが絡んでいるとなると試したくなのるは道理（笑）。特徴は、

パラメータ数: 2B
ベースアーキテクチャ: NVIDIA Cosmos-Predict2-2B-Text2Imageの派生モデル
テキストエンコーダー: Qwen3-0.6B
モデルサイズ: 合計約5.63GB（safetensors）
Prompt: @アーティスト名でアーティスト指定ができたり、PONYでお馴染みのscore_5なども使える

となる。プロンプトの書き方は、Danbooru系のタグベースPromptが基本で（自然言語でもOK）、（リアル系を除く）SDXLからの置き換えを狙っている感じだろうか。LoRAはお馴染みkohya-ss/sd-scripts対応済み。WorkflowはComfyUIのテンプレートに用意されている（要Update）。特殊な部分はなく、Negative Promptありで30 Steps/CFG 4.0となっている。