生成AIグラビアをグラビアカメラマンが作るとどうなる?第67回:HiDream-O1の公式ワークフローを改良したら、もう本物の写真に!?(西川和久)

テクノロジー AI
西川和久

1962年生まれ。プログラマー、IT系ライター、カメラマン(主にグラビア)と、三足の草鞋になってもう四半世紀。

特集

生成AIグラビアをグラビアカメラマンが作るとどうなる? 連載記事一覧

HiDream-O1 Dev/FullのWorkflowが公式テンプレートに!

前回、HiDream-O1の前編とも言える記事を掲載した。ただタイミング的にComfyUIが対応中だったこともあり、掲載したWorkflowは公式のものではない。


その後のUpdateでHiDream-O1に正式対応、同時にFull/Dev共にWorkflowが公開されたのでチェックした。

HiDream-O1 FullのWorkflow
HiDream-O1 DevのWorkflow

興味深いのはgemma4_e4b_it_fp8_scaledを使ったPrompt拡張があることだろうか。FullとDevの違いを比較すると以下の通り。参照画像は普通のT2Iでも何かないとエラーになるので、何でもいいのでセットしておく。

Full

Dev

Sampler

dpmpp_2m_sde_gpu

lcm

Scheduler

normal

steps

40

28

ModelNoiseScale

8.0

7.6

HiDream-O1 Patch Seam Smoothing

あり

なし

HiDream-O1固有のModelNoiseScaleは、値が大きいとコントラストが高くなり細部もよく出る。個人的にはこの値は少し高い気がするので好みによって調整すればいいだろう。

HiDream-O1 Patch Seam Smoothingは、あるとシャープネスが増す感じだが、stepの後半に影響しONだと少し生成時間がかかるようになる。ONとOFFで絵柄は変わらないので、通常OFF、Seedで良いのが出たら固定してONという使い方をするのがベターだ。

以下、設定はそのまま、解像度を1664x2496px (2:3)、seed 固定、Prompt ”a young Japanese woman”をPrompt拡張ONとした時の結果となる(ただし片方/DevはPrompt拡張した結果をPromptとして使っている=Promptは同じ)。

Prompt拡張後。Japanese womanで着物を出してる犯人はgemma4_e4b_it_fp8 (笑)。

A breathtaking, hyperdetailed portrait of a young Japanese woman, embodying serene elegance and modern grace. She has long, lustrous black hair styled in soft waves, large expressive eyes with a subtle, thoughtful gaze, and delicate features. She is wearing a contemporary, minimalist kimono made of sheer, indigo-dyed silk, accented with subtle silver embroidery along the collar. The composition is a medium close-up, utilizing a shallow depth of field to keep her face in razor-sharp focus while the background melts into a soft bokeh. She is positioned against a backdrop of a traditional Kyoto garden at twilight—lush moss, carefully pruned pines, and a hint of a softly glowing paper lantern visible in the deep background. The lighting is cinematic and atmospheric: soft, diffused moonlight mixed with warm, golden spill from the lantern, creating gentle rim lighting on her silhouette. Shot with an 85mm prime lens, f/1.4 aperture, achieving a highly photorealistic, editorial magazine quality.

Full
Dev

正直FullもDevもぱっとしない。違うPrompt(Prompt拡張無し)で2つずつ。どちらがどちらと書かなくても見てFullとDev、判断できるのではないだろうか?

Full
Full
Dev
Dev

印象同じく、Devはスキャナで写真を読み込んだ様な感じ。Fullは色の抜けはいいものの、何かガチガチした感じとなる。

Full + 蒸留LoRA

FullとDevどちらも微妙な画像を何とかできないか?と考えたのがZ-Imageの時に使った技、Full + 蒸留LoRAで生成するパターンだ。これなら蒸留具合を調整でき、好きな絵柄にコントロール可能。

蒸留LoRAは ここ にあり、3つファイルがあるが、使うのはhidream_o1_image_dev_2604_lora_avg_rankg_224_bf16.safetensors。

この Dev-2604、実はDev公開の数日後にリリースされた修正版だ。1本化したモデルもあるので直接ComfyUIでも生成可能なのだが、今回は蒸留LoRAを使用する。Workflowは以下の通り。

Full + 蒸留LoRA版Workflow。Prompt/設定などは上記のFull/DevのWorkflowと同じ

ロジック的には単純にFull版のWorkflow、modelの部分に蒸留LoRAを入れているだけだ。但しパラメータが若干違い、

となる。また*印の部分は(好みに)要調整。顔LoRA (0.4) を肌の質感を上げるために入れてある(ai-toolkit/ローカルやWaveSpeed/サービスで作成可能)。上記の作例そのままと+4つを掲載。随分良くなったと思うが、いかがだろうか?

欠点としては蒸留LoRAのかかり具合で、体や文字が崩れやすいこと。ここはパラメータを調整したりSeedを変えて逃げるしかない。

今回締めのグラビア

今回締めのグラビアは、改良版?Full + 蒸留LoRA (0.5) + 顔LoRA (0.4) Workflowを使用。扉は2688x1536px、グラビアは1664x2496pxで出力し長辺を1920pxへ縮小、掲載した。

Full + 蒸留LoRA(0.5) + 顔LoRA(0.4)を使ったグラビア!

この改良版?HiDream-O1 Workflow、その魅了は何といっても当たれば(笑)、Z-Image-Base + 蒸留LoRAを凌ぎ、奥行きや色の感じが良くかなりリアルな写真になること。また2:3で1664x2496pxを一気に生成、フルHDを軽く超える画像を得られ、その割にRTX 5090で約9.6秒(HiDream-O1 Patch Seam Smoothing無し)と速いことだろうか。

HiDream-O1、I2Iもあるのだが、これはまた別の機会に……。

生成AIグラビアをグラビアカメラマンが作るとどうなる? 連載記事一覧

《西川和久》

西川和久

1962年生まれ。プログラマー、IT系ライター、カメラマン(主にグラビア)と、三足の草鞋になってもう四半世紀。

特集

BECOME A MEMBER

『テクノエッジ アルファ』会員募集中

最新テック・ガジェット情報コミュニティ『テクノエッジ アルファ』を開設しました。会員専用Discrodサーバ参加権やイベント招待、会員限定コンテンツなど特典多数です。