生成AIグラビアをグラビアカメラマンが作るとどうなる？第15回：SDXLでのControlNet活用方法その2＋衣服を固定できるOutfit Anyone (西川和久)

テクノロジー AI

2023 Dec 19 13:15

西川和久

1962年生まれ。プログラマー、IT系ライター、カメラマン(主にグラビア)と、三足の草鞋になってもう四半世紀。

特集

生成AIグラビアをグラビアカメラマンが作るとどうなる？第15回：SDXLでのControlNet活用方法その2＋衣服を固定できるOutfit Anyone (西川和久)

テクノエッジでは人気連載「生成AIグラビアをグラビアカメラマンが作るとどうなる？」から生まれたオンラインセミナー、グラビアカメラマンが教える、生成AIグラビア実践ワークショップを開催しています。3回目となる次回は12月21日、ご興味のあるかたはぜひお申し込みください。クラウドGPUサービスをご提供しますので、自前のハイエンドPCがなくても気軽に参加できます(編集部)

グラビアカメラマンが教える、生成AIグラビア実践ワークショップ（第3回）参加者募集。過去回アーカイブも視聴できます | テクノエッジ TechnoEdge

https://www.techno-edge.net/article/2023/12/08/2416.html続きを読む »

第13回目のControlNet Canny / Depth / OpenPoseを軽くおさらい

連載第13回目ではControlNetのCanny、Depth、OpenPoseをご紹介した。続きに入る前に軽くおさらいすると、ControlNetは指定した画像を使って、構図や絵柄、ポーズ、そして書かれている内容(Prompt相当)などを抽出し、生成する画像を固定する方法だ。

生成AIグラビアをグラビアカメラマンが作るとどうなる？第13回：SDXLでのControlNet活用方法その1+α版（西川和久） | テクノエッジ TechnoEdge

第9回にFooocus-MREを使ってControlNetをご紹介したが、一般的なAUTOMATIC1111での説明はまだだったので、改めて今回と次回で行いたい。

https://www.techno-edge.net/article/2023/11/20/2296.html続きを読む »

生成AIグラビアをグラビアカメラマンが作るとどうなる？連載記事一覧

以下の画像から分かるように、Cannyは線で、Depthは深度で、OpenPoseは骨の形状で生成する画像をコントロール出来る。

1	2
3	4

元画像
Canny
Depth
OpenPose

使い分けとしては、Cannyは線なので、顔の輪郭も含め、結構細かい部分まで影響する、Depthは深度なのでCannyよりは軽い感じか。いずれにしてもこの2つは背景も含め元画像にかなり似たものとなる。

対してOpenPoseはご覧のように骨だけなので、背景は全く影響を受けず、例えばより細身や太めなど体型の指定は自由。加えて骨の種類が変えられ、openpose、openpose_face、openpose_faceonly、openpose_full、openpose_handの指定が可能。順に体だけ、顔+体、顔だけ、顔+体+手、体+手…出したい絵柄を考えて選択することが出来る。

ただし立ってる時はまだいいのだが、座りなどより複雑なポーズになると、この骨自体では表現し辛く、出てくる画像も割と大雑把な感じとなるだろうか。

各ControlNet用のModelのダウンロードはここから行う。ファイル名に_sd15_や_xl_、_Canny_などが含まれているので該当するのはどれか？見れば分かるはずだ。ファイルのコピー場所は、 [AUTOMATIC1111フォルダ]/models/ControlNet 。

以上が第13回目のざっくりしたおさらいとなる。

その2はControlNet Reference / Revision / IP-Adapter

今回扱うのはReference、Revision、IP-Adapter。これら3つの特徴は、Canny、Depth、OpenPoseのように物理的に構図などを固定するのではなく、画像に書かれているものが何か？を認識して、生成する画像を固定する。

Reference

Referenceは、文字通りリファレンス。つまり指定した画像をリファレンスとして、似ている画像を生成する。タイプは3つあり、

reference_only
顔を構成するパーツや雰囲気を似せる
reference_adain
顔に加え構図も似せる
reference_adain+attn
上記2つの合わせ技

1	2
3	4

元画像
reference_only
reference_adain
reference_adain+attn

とこんな感じだ。元画像は日本人だと少し変わっても分からないのであえて西洋系にした。目鼻立ちがはっきりしているので、似ているかどうかも分かりやすい。Promptは共通で「photo of a woman,20 years old」。

生成された画像全てリファレンス画像に似た感じの女性が出てきた。3タイプの違いもなるほどと言ったところ。

タイプの使い分けは、reference_adain+attnが全部入なので一番似る。ただ構図まで似ては面白くない時は、これ以外を選ぶことになる。顔だけならreference_onlyが無難だろうか。

Revision (SDXLのみ対応)

RevisionはSDXL専用でSD 1.5では使えない。機能的には画像にある内容を内部処理的にPromptへ置き換えている感じだろうか。オプションは以下の2つ。

revision_clipvision
プロンプトを参照しながらrevision
revision_ignore_prompt
画像情報のみを使ってrevision。Promptは無視する

これまで説明した機能と根本的に違うのは画像として何も固定していないこと。描かれている内容をPromptとして抽出しているだけなので、Modelによっては効かない、呪文の効果が薄いものも含まれ、使用するModelやSamplerの設定によっても生成される画像は大きく変わることになる。

1	2
3	4

元画像
revision_ignore_prompt
revision / Prompt無し(revision_ignore_promptと同じになる)
revision / Prompt「woman」 / Control Weight 2

ただ以前Fooocus-MREで試した時もそうなのだが、イマイチ使いどころが良くわからない。

まずrevision_ignore_prompt。これは分かりやすく、Promptは無視。画像にある情報だけで画像を生成する。結果を見てもなるほど的な感じだ。次にrevisionでPrompt無しの場合は、revision_ignore_promptと同じ結果となる。

ここまではいいのだが、謎なのがrevisionでPromptを入力したケース。ほとんどPromptに引っ張られ、ControlNet側のrevisionが効かないのだ。Control Weight 2にすると少しPromptとのミックス的な結果となるが、Promptでwomanだけなく、いろいろ記述するとControl Weight 2としてもPrompt側の影響が強くなる。

改めて検証しても以前？と思った部分は変わらずでどうなっているのか謎のままだ。

IP-Adapter

IP-Adapterも動きとしてはRevisionと(多分)同じ。ただSD 1.5でも使用可能でPromptの抽出はimg2img / Interrogate CLIPにより近い。

例えばrevisionで使った元画像をimg2img / Interrogate CLIPすると

a woman in a gray dress posing for a picture in the woods with trees in the background and fog in the air, Du Qiong, neo-romanticism, a marble sculpture, phuoc quan

と出てくる。これをtxt2imgへコピペし、生成したのが一枚目(左)の画像。うまく内容を拾ってるのが分かる。