生成AIグラビアをグラビアカメラマンが作るとどうなる?第62回:ComfyUIの複雑な生成画面をスッキリさせるApp modeとちょっと面白いWorkflow(西川和久)

テクノロジー AI
西川和久

1962年生まれ。プログラマー、IT系ライター、カメラマン(主にグラビア)と、三足の草鞋になってもう四半世紀。

特集

生成AIグラビアをグラビアカメラマンが作るとどうなる? 連載記事一覧

画像/動画生成モデルで使用するテキストエンコーダーでLLM?

例えば画像生成のZ-ImageQwen-Image、動画生成のLTX-2.3ではそれぞれ、Qwen3-4bQwen2.5-vl-7bGemma3-12b-itをテキストエンコーダーとして使っている。これらは言うまでもなく、LLM用のモデルで、本来ならチャットなどで利用する。

以下の記事で少し触れているが、HunyuanImage-2.1はテキストエンコーダーにQwen2.5-vl-7bを使っており、それをLLMとしても活用し外部モデル無しでプロンプト拡張を実現している。


であれば、上記のモデルもLLM的に使いプロンプト拡張的に再利用できないか?と、筆者が作ったのが以下のカスタムノードだ。Z-Image / Qwen3-4bLTX-2.3 / Gemma3-12b-itに対応している。

「え”Qwen-Imageは?」なのだが、もちろんトライしたものの、ComfyUIの内部構造が非対応で、カスタムノード内では吸収し切れなかったため諦めた…と言う経緯がある。

使い方は簡単!例えばZ-Imageだと、入力はCLIP、出力はテキスト。この出力をCLIP Text Encode (Positive Prompt)のTEXTへ入れれば準備完了。

パラメータとして、ユーザープロンプトとシステムプロンプトがあり、後者には、

You are a professional image generation prompt expert. Output in English.

と設定済み。ユーザープロンプトに生成する内容を書けばOK。モデル自体は4bだが日本語入力も可能だ。

ComfyUI-TextGenerateQwen3PromptをZ-Imageの入力補助に使う例

システムプロンプトに適当な整形用指示を入力。単に日本語入力用として使ってもいいが、ここにあるシステムプロンプトを使うと、ユーザーが入力した簡単なプロンプトからiPhoneで撮ったような日常スナップ写真のプロンプトが生成される。キーワードは”お花見”または”春、逆光”。出来た作例は以下の通り。





いかがだろうか? たったこれだけのキーワードでこれだけの絵が出ればあれこれプロンプト悩まずに済む!?

LTX-2.3 / Gemma3-12b-itも同じ接続でOK。こちらはLTX-2.3プロンプト拡張用とユーザーが任意にシステムプロンプトを設定出来るカスタム用と2パターン。加えて参照画像入力にも対応している。

ComfyUI-TextGenerateGemma3PromptをLTX-2.3で使用。リファレンス画像入力も可能

これらの方法だと、もともと画像/動画生成モデルがテキストエンコーダー用にロードしているため、余計なリソースを必要としないのが嬉しいポイントとなる。是非いろいろ試してほしい。

Nvidia_RTX_Nodes_ComfyUI

次は画像/映像用アップスケーラー、Nvidia_RTX_Nodes_ComfyUINVIDIA RTXを搭載しているAI PCであれば利用できる。多くの場合、NVIDIAのGPUを使っているので問題ないだろう。

以前、アップスケールはSEEDVR2が良い!と言っていたが、これもなかなかの性能でしかも高速。15秒程度なら動画もあっと言う間に完了する(RTX5090で約18秒)

Nvidia_RTX_Nodes_ComfyUIを使った画像のアップスケール
Nvidia_RTX_Nodes_ComfyUIを使った動画のアップスケール

簡単な割に効果抜群なので是非試してほしい。1点、画像の比較に関してはComfyUIのNodes 2.0(設定→Nodes 2.0をON)を使わないと見れないので要注意!

ComfyUI App mode

ComfyUIのv0.6.?から対応となったApp mode。まだベータ版なので不安定であるが、Workflowをスッキリ見せる最終手段の登場となる。百聞は一見にしかず、下記の画面キャプチャをご覧いただきたい。

ComfyUI App mode ON時の画面
ComfyUI App mode OFF時の画面

App mode ONとOFFで「え”」と言うほど違いがあり、前者はまるでA1111のスッキリ版だ。設定は割と簡単で、Edit appで編集モードに入り、入力項目出力項目をノードから選択、プレビューで確認…となる。

Edit app入力項目設定
Edit app出力項目設定
Edit appプレビュー

Workflow構築中は通常モードで、完成したら入力項目、出力項目を設定してApp modeへ……という使い方になるかと思う。

もう結構長い間ComfyUIのWorkflowを見ているので、あの画面に慣れてはいるものの、App modeに切り替えると「生成時はやっぱこれだよね!」と思ってしまう(笑)。

今回締めのグラビア

今回締めのグラビアは、扉とともに上記したiPhoneで撮ったような日常スナップ写真のプロンプトを使い春らしいのを掲載した。どちらもZ-Image-Base + 8-Steps-2602_UDCAI_ComfyUI(0.6/前回掲載) + 顔LoRA(0.4)を使って10 Steps、いきなり長辺1920pxで生成。

指定したキーワードはが”春、桜”。グラビアが”春、桜、夜、ダメージジーンズ”。たったこれだけでこの絵が出る。

iPhoneで撮った様な日常スナップ写真のプロンプトを使ったグラビア!

何故かこのプロンプトを使うと妙に生っぽくなるから不思議なものだ。システムプロンプトを工夫したプロンプト拡張はいろいろ楽しめるので、興味のある人は試してほしい。

生成AIグラビアをグラビアカメラマンが作るとどうなる? 連載記事一覧

《西川和久》

西川和久

1962年生まれ。プログラマー、IT系ライター、カメラマン(主にグラビア)と、三足の草鞋になってもう四半世紀。

特集

BECOME A MEMBER

『テクノエッジ アルファ』会員募集中

最新テック・ガジェット情報コミュニティ『テクノエッジ アルファ』を開設しました。会員専用Discrodサーバ参加権やイベント招待、会員限定コンテンツなど特典多数です。