生成AIグラビアをグラビアカメラマンが作るとどうなる?第60回:遂に登場したZ-Image-Baseの破壊力!(西川和久)

テクノロジー AI
西川和久

1962年生まれ。プログラマー、IT系ライター、カメラマン(主にグラビア)と、三足の草鞋になってもう四半世紀。

特集

生成AIグラビアをグラビアカメラマンが作るとどうなる? 連載記事一覧

Z-Image-Baseリリース!

1月28日、以前から噂されていたZ-Image-Baseがリリースされた。これはZ-Image-Turboが蒸留版だったのに対し非蒸留版に相当する。

特徴的には、パラメータ数6B、テキストエンコーダーにQwen3 4Bを使用しマルチリンガル、ライセンス Apache 2.0……などZ-Image-Turboと同じだ。

ただFLUX.2 [klein] でも分かるように、非蒸留版の方が(当たると凄い絵を出すが)必ず良い絵が出るというわけでもなく、存在意義は学習させやすく、FTやLoRAに期待できる……的なところになる。

加えてCFG≠1、Steps 50(推奨)なのでZ-Image-Turbo(CFG=1、Steps 9)と比較して約11倍もの生成時間がかかる。仮にZ-Image-Turboが5秒だとすると約1分(55秒)。高速化LoRAなどが出れば速くなるが、素の状態だとこんなにも差があり、Baseが出て誰もが嬉しい!というわけでもない。

各モデルは以下の通り。

WorkflowはComfyUIが対応しているので、一般的な画像生成用と全く同じだ。Z-Image-Turboとの違いはNegative Promptがあるという程度。

Z-Image-BaseのWorkflow。Negative Promptがある。日本語もOK

では早速いつもの「a young Japanese woman」。比較対象にFLUX.2 [klein] 蒸留版9B、Qwen-Image-2512、Z-Image-Turboを掲載。解像度は832x1216ピクセルで全て共通。Steps/CFGは、Z-Image-Base 50/4.0、Negative Prompt ”人体畸形, ugly fingers”。Qwen-Image-2512 20/2.5、蒸留モデル 推奨値/1.0。

FLUX.2 [klein] 蒸留版9B
Qwen-Image-2512
Z-Image-Turbo (2.72秒)
Z-Image-Base (27.98秒)

ご覧のようにZ-Image-Baseは過去最強とも言える絵だ。たまたまSeedが良かっただけかもしれないが筆者が驚くほど(笑)。試しにと同一Seedで出したZ-Image-Turboはご覧の通り。圧倒的な差が付いてしまった。

以下、作例を6つほど。こちらは832x1216ピクセル、30 Steps、CFG 4.0で生成している。もちろんLoRAは未使用。素のZ-Image-Baseの絵となる。







印象的なのは奥行き感と色。特に抜けるような青い空。また光の感じも非常によく出ている。ただこれはPromptで光関連も書いたからであって何も指示しないと「え”?」という平凡な絵が出たりする。この辺りが難しいところか!? いずれにしてもZ-Image-Turboとは随分テイストが違う。

Z-Image-Base How-to

まず困った話として、Z-Image-Turbo用のLoRAが使えないこと。Z-Image-Base専用が必要となる。逆にZ-Image-TurboにZ-Image-Base用LoRAは使えるものの効きが弱く、多くのケースで1.0以上にしないと効果が現れない。要注意ポイントだ。

既にファインチューニングされたモデルやLoRA、改良版Workflowなどがいろいろ出ている。その中でお勧め(面白い?)のをいくつかご紹介する。

Radiance Chrome Voluptuous。Z-Image-Turboの時にご紹介した ReversalFilmGravure LoRA for z_image_turbo と同じ作者によるLoRAで完成度が高く是非使っていただきたい逸品。

LoRA無し
LoRAあり

次は Z-Image-Distilled。蒸留化、つまりCFG=1で使え高速生成可能になるLoRA。Stepsも10~15でOKとある。従ってZ-Image-Turboとほぼ同等の生成時間となるわけだ。

LoRA無し
LoRAあり

このリポジトリ、いくつかLoRAが入っているのだが使ったのは、Redcraft_RedDX_v2_ZImage_Distilled_r256_LoRA.safetensors。15 StepsでCFG 1.0なので圧倒的に速く生成できる(作例は32.53秒 vs 10.57秒)。Steps数が少ない分、構図などが変わっているが3倍速と考えれば十分許容範囲ではないだろうか!?

なおLoRAは既にai-toolkitWaveSpeedAI (1,000 Steps/$1.25) が対応し作ることが可能だ。どちらにしても1000 Stepsでは不足気味。2000~3000 Steps程度は回した方が良い。

派生モデルは、Z-Image-Turbo-ArtZ-Image-TurboとZ-Image-Baseを混ぜたもので、Stepsは8-12、CFG=1.0。特性的にはZ-Image-Turboに近い感じか!?

Z-Image-Turbo-Art
Z-Image Base - SKP Finetune

もう一つは、Z-Image Base - SKP FinetunedZ-Image-Baseをファインチューニングしたものでまだv0.5なのだがなかなか良い絵を出す。Steps 30、CFG 2.5、Res Multistep/Simpleが推奨。

Workflowで興味深いのを。Z-Image-BaseとZ-Image-Turboのハイブリッド版だ。後半のモデルがrefinerになるありがちなパターン。もともと reddit にWorkflowがあったのだが、どうもおかしいので、筆者が手を入れたものとなる。

というのもオリジナルは、先にZ-Image-Baseを5 Steps次にZ-Image-Turboを15 Steps合計20 Steps。Z-Image-TurboのCFGが5.0、Z-Image-TurboでSeedを変えてもあまり変化しない対策用で作られたSeedVarianceEnhancerがZ-Image-Base側に、パラメータをデフォルト=Z-Image-Turbo用……。何かおかしな感じになっている。

またZ-Image-Baseが前半というのも妙だ。50 Steps必要なところを5 Stepsだとほとんで絵になっておらず、加えてZ-Image-Turboを後半15 Stepsも回すと、おそらくほぼZ-Image-Turboの絵になる。

そこで思ったのは「Z-Image-BaseとTurbo逆では?」。Z-Image-Turboが前半5 Stepsなら通常9 Stepsの約半分、SeedVarianceEnhancerの接続も頷ける。後半Z-Image-Baseが15 Stepsだと最小値の30 Stepsの半分。つまりどちらも規定の半分で生成する……と辻褄が合う。参考までにそれぞれ5 Stepsで生成した画像は以下の通り。

Z-Image-Base 5 Steps
Z-Image-Turbo 5 Steps

やはりZ-Image-Base 5 Stepsでは全く絵になっておらず、これを後半別モデルでrefinerしても意味がない

つまりTurboでほぼ絵を作り、Baseで色などを調整……これが正解だろう。これらを修正したWorkflowが以下の通り。ここに置いてあるので必要な人はダウンロードしてほしい。

Z-Image-BaseとZ-Image-Turboのハイブリッド

作例はPromptやSeedなどを同じで生成したZ-Image-BaseとZ-Image-BaseとZ-Image-Turboのハイブリッドとなる。かかった時間は29秒 vs 10秒。なお同一SeedのZ-Image-Turboの絵は掲載していないが、5 Stepsとほぼ同じになる(詳細が書き込まれるだけ)。

Z-Image-Base
Z-Image-BaseとZ-Image-Turboのハイブリッド

生成時間が少し短くなるもののテイストも変わる。これは高速化というより絵の雰囲気を変えたい時に使う方がいいだろう。XでBaseが先では?という話もあったので詳細を解説してみた(笑)。

最後に裏技としてほとんど絵が変わらず生成時間を短くする方法。何故生成時間が短い方がいいか? その理由は、出てきた絵が自分の欲しい絵かをなるべく早く確認したいから。違えばガチャを繰り返し……。欲しい絵が1発で出るなら少々時間がかかってもOK……こんな感じではないだろうか?

Z-Image-Base + Easy Cache
Z-Image-Base

従ってComfyUI標準搭載のEasy Cacheを使い速く生成お!なのが出たらSeedを固定し、Easy Cacheをバイパスし再度生成する。これでx2ちょっと高速化できる。違いは細部。大枠変わらないので、いろいろな意味で一番効率的かもしれない。今回の作例もこのパターンで生成している。

今回締めのグラビア

締めのグラビアはZ-Image-Base fp32を使用した(LoRA無し)。サイズが大きいのでそれなりの環境が必要だがbf16より若干性能が良いようだ。扉/グラビア共、時期的にバレンタインデーなのでそれっぽい感じへ。どちらも長辺1920ピクセルとし掲載サイズをそのまま生成している。

Z-Image-Base fp32を使用したグラビア!

グラビアの方は珍しくバストアップの構図だが、この破壊力はちょっと凄まじい。スタジオで実際撮ってもこのクオリティを出すのは結構大変だったりする。2026年の生成AI画像は大変なことになりそうだ!

生成AIグラビアをグラビアカメラマンが作るとどうなる? 連載記事一覧

《西川和久》

西川和久

1962年生まれ。プログラマー、IT系ライター、カメラマン(主にグラビア)と、三足の草鞋になってもう四半世紀。

特集

BECOME A MEMBER

『テクノエッジ アルファ』会員募集中

最新テック・ガジェット情報コミュニティ『テクノエッジ アルファ』を開設しました。会員専用Discrodサーバ参加権やイベント招待、会員限定コンテンツなど特典多数です。