生成AIグラビアをグラビアカメラマンが作るとどうなる?第56回:2025年秋の陣Part 2は高速無検閲のZ-Image-Turbo(西川和久)

テクノロジー AI
西川和久

1962年生まれ。プログラマー、IT系ライター、カメラマン(主にグラビア)と、三足の草鞋になってもう四半世紀。

特集

生成AIグラビアをグラビアカメラマンが作るとどうなる? 連載記事一覧

前回、2025年秋の陣Part1としてFLUX.2 [dev]をご紹介したが、直後の11月27日にリリースされたZ-Image-Turboをご紹介したい。


Z-Image-Turbo / 生成

Z-Image-TurboはQwen-Imageでお馴染み、Alibabaから11月27日リリースされた。Qwen-Imageがあるのに何故!?と思ってしまうが、それはさておき、特徴として以下があげられる。

  • Turbo、BASE、Editの3種類
    27日は蒸留版のTurboのみ
    https://huggingface.co/Tongyi-MAI/Z-Image-Turbo

  • パラメータ数6B
    FLUX.1 [dev] 12B、Qwen-Image 20B、同時期にリリースされたFLUX.2 [dev]は32B
    テキストエンコーダーにQwen3 4Bを使用しマルチリンガル

  • ライセンス Apache 2.0

今回は蒸留版のTurboのみだったが、フルのBASEと編集可能なEditがリリース予定となっている。ライセンスはApache 2.0(BASEとEditは現時点では不明)。

パラメータは今時6Bとかなり小さい。FLUX.1 [dev] 12B、Qwen-Image 20B、同時期にリリースされたFLUX.2 [dev]は32B……なので、いかに小さいかが分かる。

ただしテキストエンコーダーには最新のqwen3-4bを使用。Qwen-Imageだとqwen2.5-vl-7bなので、それより新しいものを採用している。4bと小さいものの、最新鋭ということもあり、Promptは日本語のままで(ほぼ)正確に再現できる

WorkflowはComfyUIのテンプレートにあり、モデルさえダウンロードすればサクッと試すことが可能だ。

Z-Image-TurboののWorkflow(テンプレートにある)。日本語PromptでもOK

なおVRAMが8GBや12GBなど少ない場合は、fp8版やgguf版を使えば作動する。stepsが9と小さく、高速生成できるのが特徴。

前回、4つのモデルで比較したが、今回はFLUX.2 [dev]の部分をZ-Image-TurboとしPrompt「a young Japanese woman」。FLUX.1 [dev]、FLUX.1 Krea [dev]、Qwen-Image、そしてZ-Image-Turbo(LoRA/参照画像無し)。解像度は832x1216pxに合わせてある。

FLUX.1 [dev]
FLUX.1 Krea [dev]
Qwen-Image
Z-Image-Turbo

生成時間はRTX 5090でたった3.24秒。Nunchaku化したFLUX.1 Krea [dev]より速い(笑)。そしてどれよりも一番それっぽく生成されている。さらに調べたところ無検閲。

以下、作例をいくつか並べてみた。無学習のオリジナルのままでかなりリアルに出ている。これが秒でサクッと作れるのは嬉しい限りだ。

Z-Image-Turbo作例1
Z-Image-Turbo作例2
Z-Image-Turbo作例3
Z-Image-Turbo作例4

Z-Image-Turbo / LoRA学習とControlNet

執筆時、LoRA学習とControlNetは対応済み。LoRAの学習に関してはローカルではai-toolkitmusubi-tunerは現在対応中。サービス系ではWaveSpeedAIfaIが対応している。

ai-toolkit
musubi-tuner (musubi-tuner/docs/zimage.md)
aI z-image-trainer (1k steps $2.26)
WaveSpeedAI z-image-lora-trainer (1k steps $1.25)

LoRAの学習環境をローカルに作るのは結構手間なので、サービスを利用するのもあり。顔LoRAの場合、1024x1024pxの写真を10枚ほど用意すれば良い。以下、作った顔LoRAを使った作例を2点。LoRAは普通にMODEL/model間に入れる。

WaveSpeedAIで学習したLoRAを使用。かかる時間は数分
ai-toolkitで学習したLoRAを使用。かかる時間は3時間ほど

ControlNetのWorkflowは以下の通り。赤いノードが追加した部分となる。なお、ControlNetのモデルmodels/model_patchesへ入れる必要がある。Unionタイプなのでモデル1つで、Pose、Depth、Canny、Hedなど複数の形式に対応する。

Z-Image-TurboでControlNetを使うWorkflow。赤いノードが追加部分。バイパスはLoRA

ここまでが11月27日リリースされてから約1週間。もの凄い勢いでいろいろ開発されているのが分かる。速くて無検閲、そしてApache 2.0ということもあり大人気!

Civitaiには日々多くのLoRAや最近は派生Checkpointも上がっている。同じPromptで生成するとFLUX.2 [dev]の方が奥行きがあって絵的にはいいのだが、あまりにも重過ぎる。ローカル生成用としては既に勝負あった感じだ。

Z-Image-Turbo / Prompt拡張

このZ-Image-Turbo、公式のリポジトリに面白いコードがあって、そこにはLLMのSystem Promptに渡す一文が中国語で入っている。日本語に訳すると

あなたは画像生成AI用のプロンプト改善の専門家です。ユーザーの簡単な要望を、具体的で詳細な視覚描写に変換します。
作業手順:

  1. 核心要素の確認: 主体、数量、動作、色、指定された名前など、変更してはいけない要素を把握

  2. 推論が必要か判断: 「~をデザインして」「~を説明する画像」など、具体的なビジュアル案を考える必要があれば、まず明確な構想を立てる

  3. 視覚的詳細を追加: 構図、光、色彩、質感、空間配置などを具体的に記述

  4. 文字の正確な処理: 画面に表示する文字は必ず英文ダブルクォーテーション("")で括る。看板、ポスター、UI、図表などの文字も全て明記し、位置やフォントも説明

  5. 客観的に記述: 比喩や感情表現は使わず、具体的な視覚要素のみを記述。「8K」「傑作」などの評価語は含めない

修正後のプロンプトのみを出力してください。説明や補足は不要です。
ユーザー入力プロンプト: {prompt}

となる。これをLLMのSystem Promptへ入れ、例えば”a Japanese woman”とすると、以下のような出力になる(gpt-oss-120b)。

Japanese woman, solo, medium close-up portrait facing forward, wearing a traditional indigo silk kimono with subtle white wave pattern, hair styled in a classic updo adorned with kanzashi ornaments, soft natural daylight from the left creating gentle shadows on her face, background featuring a simple shoji screen with translucent paper, standing while holding an open delicate wooden folding fan, serene expression, fair skin tone, almond‑shaped brown eyes, composition centered with shallow depth of field focusing on the subject, muted earth tones and indigo color palette.

やっぱりJapaneseを入れると着物になるのね(笑)……はさておき、なかなかのPromptが生成される。筆者のようにGoogle翻訳を使ってる人では書けない英文だ。

このままLLMと併用してもいいのだが、Prompt拡張をそのまま搭載したカスタムノードがあり、LLMだけでなく、VLLMにも対応。つまりqwen3-vl-8bなどを使えばリファレンス画像から内容を得て、それをPrompt拡張することも出来る。Workflowも含めここにあるので、興味のある人は試してほしい。

今回締めのグラビア

今回締めのグラビアはもちろん、扉も含めZ-Image-Turboを使い生成。ダイレクトに長辺1920pxが出せるのでアップスケールはしていない。LoRAはReversalFilmGravure LoRA for z_image_turboを使用。名前の通りアナログっぽい仕上がりになりお気に入りの一つだ。

Z-Image-Turboを使ったグラビア!1280x1920px生成可能でアップスケール無し

今年もあと一回原稿を書けば終わり。締めに何を書くかは考え中だ。ただこの間にもt2iのモデルが2つ登場。これらについても軽く触れるかもしれない。

生成AIグラビアをグラビアカメラマンが作るとどうなる? 連載記事一覧

《西川和久》

西川和久

1962年生まれ。プログラマー、IT系ライター、カメラマン(主にグラビア)と、三足の草鞋になってもう四半世紀。

特集

BECOME A MEMBER

『テクノエッジ アルファ』会員募集中

最新テック・ガジェット情報コミュニティ『テクノエッジ アルファ』を開設しました。会員専用Discrodサーバ参加権やイベント招待、会員限定コンテンツなど特典多数です。