生成AIグラビアをグラビアカメラマンが作るとどうなる? 連載記事一覧
リファレンス画像を使用するComfyUI Workflowとは!?
ここ2回ほど新型checkpoint、HiDream-I1の話が続いたのでちょっと箸休め(笑)。今回はリファレンス画像を使用するComfyUI Workfkowを4パターンほどご紹介したい。
リファレンス画像を使用するWorkflowとは? 例えば顔の写真を入れれば、出力する画像も似た顔になったり、普通に立ってる美女に指定のバッグを持たせたりできる。
つまりLoRAを作らず写真1枚で似た画像を作れる技術だ。ただ簡単な分、さすがにLoRAより精度(類似度)は劣るものの、安易さで考えればこちらに軍配があがる。
ComfyUI-UNO
まず1つ目はComfyUI-UNO。bytedanceが開発したUNOのCustom Node版を使用する。最大4つのリファレンス画像を設定でき、その特徴を持った画像が出力できる。

この例では、顔、服、バッグの画像3つを使い、背景などをPromptで指定。なかなかいい感じだ。checkpointのベースはFLUX.1 [dev]を使用。
いろいろ試すと分かるが、厳密なTry-on(着せ替え)は難しいものの、この様に大雑把だと行けそうな雰囲気だ。ただし処理時間はそれなりにかかり、RTX 4090 でも30秒ほど。とは言え我慢出来ない範囲では無い(笑)。
license AGPL-3.0 / Apache-2.0 (UNO本体)
ComfyUI-RED-Step1X-Edit
2つ目はComfyUI-RED-Step1X-Edit。StepFunが開発したStep1X-EditのCustom Node版だ。これはInpaintに似ており、リファレンス画像にPromptで何かを変えたり、消したり、無いものを追加したりできる。以下2つの作例をWorkflowと共に掲載する。


1番目は部分書き換え。ドレスを赤色に変えている。2番目は筆者がスマホで撮った実写をリファレンス画像にし、巨大ロボットを立たせてみた(笑)。
処理速度は RTX 4090 で20秒ほど。面白いのはQwen2.5-VL-7Bを使っていることだろうか。但し、インストールが面倒なflash-attnが必要なのでハマるかも知れない。加えてご覧のように少し輪郭が曖昧な感じの出力となることが多い。
license ? / Apache-2.0 (Step1X-Edit本体)
ComfyUI-InstantCharacter
三つ目はTencentが開発したInstantCharacterのCustom Node版。これはリファレンス画像を例えば美女の写真とした場合、Promptで自転車に乗ったり、買い物に行ったり、キャラクターを保ったままいろいろなシーンを生成可能だ。
このCustom Nodeは結構早いタイミングで出ていたものの、Diffusers版のFLUX.1 [dev]をまんま使うため、RTX 4090の24GBでさえVRAM不足で作動せず。後日CPU Off Load対応となり、やっと動くようになった。

ただ RTX 4090 でも155秒と処理時間はかなりかかる。checkpointをfp8にしたりTea Cacheなどが使えればもう少し速くなりそうな気がするのだが……。仕上がりが結構いいだけに高速化を望みたい。
Workflowと作例はサイバーな美女をバイクに乗せてみた。Goodではないだろうか。もう少し速く処理できれば積極的に使ってみたい感じだ。
license ? / ?
HiDream-E1-Full
最後、四つ目はHiDream-E1-Full。名前の通り、本家HiDream-I1のInpaint系checkpointとなる。部分書き換えだけでなく、アニメ調など、全体の雰囲気を変えることもできる。

但し、実写だと少し彩度高めになり、Fullだけあって RTX 4090 でも約3分半。加えてファイルサイズ34GB、VRAM 20GB overと、今回紹介した4つの中では重い処理。効果を考えるとうーんと言ったところ。WorkflowはここのVR着けた画像に埋め込まれている。
License MIT. The VAE is from FLUX.1 [schnell], and the text encoders from google/t5-v1_1-xxl and meta-llama/Meta-Llama-3.1-8B-Instruct.
今回締めのグラビア
今回締めのグラビアは扉と共に久々に(そして唐突に)Stable Diffusion 3.5 Largeを使ってみた。個人的にはFLUX.1やHiDream-I1と比較して”よりデジカメで撮った”っぽいテイストで好きなcheckpointだ。

加えてMidjourney Style Realistic Film LoRA for SD3.5Lを0.6(トリガーワード mdv7)で加えるとよりいい感じになり、体も崩れにくくなる。(ちょっと気が早いものの)梅雨的なグラビアにしてみたが如何だろうか!?
そう言えばオープンなStable Diffusion 3が出てからもうすぐ1年(2024年6月12日)。今年2025年は4が出る?出ない? 先行してAPI版が無いだけに可能性は……。