生成AIグラビアをグラビアカメラマンが作るとどうなる?第五回:Stable Diffusionの基本1 / Checkpointとリアル系モデルの遷移 (西川和久)

テクノロジー AI
西川和久

1962年生まれ。プログラマー、IT系ライター、カメラマン(主にグラビア)と、三足の草鞋になってもう四半世紀。

特集

Checkpointとは

あとひと月ほどすると、前回ご紹介した次世代Stable Diffusion、SDXLの波が来そう(来るかも?)と言うこともあり、今回は一番の基本となるCheckpointと、筆者の興味の対象となっているリアル系モデルの遷移にふれておきたい。

まずStable Diffusionのバージョンは1.4、1.5、2.0、2.1などがあり、現在最もポピュラーなのは1.5 (SDXLは0.9、1.0)。基本、対応したバージョンでないとモデルは作動しない。

一言でモデルと言っても、Stable Diffusionが必要、もしくはオプションとして扱えるモデルは、Checkpoint、LoRA、LyCORIS、Embedding、 Hypernetwork…など、さまざまな種類がある。絵を作る上において最も重要(=絵の元になる)のがCheckpointで、他は無くても最低限これだけあれば絵を出すことが可能となる。

Checkpointとは、Stable Diffusionの学習過程で生成された画像の特徴量を保存したファイルのことを示す。一般的に配布しているファイルがこれに該当し、複数用意すれば切り替える事により、色々な特徴を持った絵を生成できるようになる。

以下、ComfyUIと言うアプリを使い(このアプリの話はまた別の機会に)、Stable Diffusionが実際何をやっているかのワークフローを掲載した。SDXL用だが、固有のrefinerを除けばStable Diffusion 1.5も基本同じだ。

Stable Diffusionのワークフロー

画像生成処理は上から下へ流れる。一番上がCheckpoint。次に左がPrompt、右がNegative Prompt。後はある意味ブラックボックス。サンプラー、VAE(Variational AutoEncoder)でデコードし、画像保存となり、生成した画像が出てくる。

Checkpoint以外はWeb UIに標準で入っているので、難しいことはさておき「Checkpointが無いと始まらない」…だけ理解して頂ければと思う。

アジア美女リアル系モデルの遷移

前置きが長くなってしまったが、モデル(Checkpoint)の中でもアジア美女リアル系と呼ばれるものの遷移について触れたい。と言ってもStable Diffusion 1.5のリリースが2022年10月20日なので、まだ1年経っていない中での話となる。

その遷移だが、言葉で説明するより、実際の出来た画像を見ていただくほうが早いので、Promptなど全て同じ設定にして生成したのが以降続く画像だ。もちろんサンプルなので、後処理は何も加えていない。

なお、全て同じプロンプトと設定で絵が破綻しない範囲に収めるため、各々のベストな設定/絵にはなっていない。つまり、特定のモデルに最適化すればまだポテンシャルがある状態だ。

また、Stable Diffusion 1.5オリジナルCheckpointは放送事故のようになっているが、これを改善すると他が破綻するため、他に合わす格好とした。予めご了承頂きたい。

共通Prompt:
professional photograph of a beautiful japan woman wearing a tank top and jeans, 20yo, smile, thigh focus,
pool side,
best quality, masterpiece, ultra high res, (photorealistic:1.4), RAW photo,
detailed beautiful face, (clear eyes:1.4), 

 

共通Negative Prompt:
illustration, 3d, sepia, painting, cartoons, sketch, (worst quality:2), bad anatomy, bad hands, (double navel), collapsed eyeshadow, multiple eyebrows, freckles, signature, logo, 2faces, (mutated hands AND fingers:1.2), (laugh line)

 

その他共通設定:
Steps: 30, Sampler: DPM++ 2M Karras, CFG scale: 8, Seed: 2787811151, Size: 512x768, Clip skip: 2

1
2
  1. Stable Diffusion 1.5オリジナル

  2. chilloutmix

まず何と言ってもchilloutmix。筆者がハマるきっかけを作った初代アジア美女に特化したリアル系モデルだ。ご覧の通り、Stable Diffusion 1.5オリジナルと比較したら…(笑)。作者は TASUKU2023 氏。日本人だ(現在はいろいろあって、2023/02/17から所有者がcivitaiに移っている)。久々に使ってみたが、このテイストはテイストで悪くない。未だに人気なのも頷ける。

1
2
3
4
  1. BraV4 (2023/04/21リリース)

  2. BRAV5 (2023/05/06リリース)

  3. BRAV6 (2023/07/07リリース)

  4. OpenBra (2023/04/27リリース)

そしてアジア美女リアル系の切り札になったのがこのBeautiful Realistic Asians / BRAシリーズだろう。先のchilloutmixではまだイラストっぽさが残っているが、こちらはご覧の通り、どのバージョンもよりリアルに近くなった。作者は PleaseBanKai 氏@シンガポール。呟きでは日本語も話されている。

こうして並べると面白いのは、4から5はチューン版。6は全く別物で、2回目の連載でも書いたがキメキメの美女では無く、普通の可愛い子が現れる。

OpenBraはBRAシリーズとは別物の単発版だ。時期的には4の後。これを見る限り、5を作る前に、4の流れのまま6で目指した「普通の可愛い子」が出る工夫をしたのではないだろうか。いずれにしても、6は他と比べて頭一つ(三つぐらい)抜けているのが分かる。

1
2
3
4
  1. BracingEvoMix_v1 (2023/05/31リリース)

  2. sweetmuse_v01 (2023/06/06リリース)

  3. realbeautymix_v15 (2023/06/07リリース)

  4. yayoi_mix_v20 (2023/07/08リリース)

以降は上記Checkpointを使ったマージモデルとなる。マージとは異なるCheckpoint複数をブレンドして好みに仕上げる事を指す。以降、リリース順に並べたが、主に筆者が使ったことのあるもので、他にも山のように存在する。

BracingEvoMixシリーズは sazyou_roukaku 氏作。chilloutmixがライセンスなどいろいろややこしくなったので、それをクリアすべく新たにほぼ同じ絵柄になるchilled_remixを作られた方でもある。

このBracingEvoMixシリーズは、BracingEvoMix_v1BracingEvoMix_Fast_v1BracingEvoMix_Another_v1と3タイプあり、どれもOpenBraがベースになっている。掲載したのはBracingEvoMix_v1だが、これは少し癖があり、ハマるともの凄い絵が出るのだが、残念ながら今回の呪文にマッチしていない。後の2つは割と素直なので他と同じ感じの絵が出てくる(確認済)。

sweetmuse_v01minami_ai01 氏作。絵的にも時期的にもおそらくBRAV5ベースになっているのではないだろうか(間違ってたらごめんなさい)。他とは違いリアルを追求すると言うよりは、少しイラスト寄りにしてキュートな感じに仕上がるのが特徴だ。

実際、civitaiに上がっている作例もそんな感じの絵になっている。筆者的にはよりリアルを!派なのであまり使ってないものの、ハマる方もいらっしゃるのではないだろうか。

realbeautymix_v15AI_Real_Beauty 氏作。civitaiのページに行くと、マージしたCheckpointが並んでおり、BRAV5を含む5種類をブレンドしているようだ。割と最近知ったのだが、筆者好みの顔出現率が高く、ちょっと嬉しかったりする。

yayoi_mix_v20AiCreatorS1881 氏作。連載3回目の作例全てにこれを使ったので見覚えある人もいらっしゃるのではないだろうか。ベースはBRAV6。

実はBRAV6は癖があり、良い絵を出すには少し苦労するのだが、このyayoi_mix_v20はそこをチューンしており、呪文に素直に反応し、扱い易くなっている。またBRAV6が出す普通の子より可愛い子が出る感じだ。

如何だろうか。同じアジア美女リアル系でもいろいろあるのがお分かり頂けただろうか。絵柄がGood、顔がタイプ、呪文が効きやすい…など、好みに応じて使い分けることができるのもStable Diffusionの特徴だ。また上記4つのマージモデルの作者は全て日本人。アジア系、特に日本人美女となるとやはり日本人が作るのが一番と言ったところか。

今回の締めのグラビア

epiCRealismは最近リアル系で「本当にリアル」と、ちょっと話題になってる西洋系美女モデル。丁度この原稿を書いてる最中にv5がリリースされたので扉の写真と共にグラビアで使ってみる事にした。如何だろうか?後から気持ちノイズを乗せているが、噂通りかなりリアルだ!

今回のグラビア!

最大の問題は、元々西洋系なので、アジア系の顔が出にくいこと。ただサンプル画像のNegative Promptを見ると、asian, chineseとわざわざ入れてるので出ることは出るのだろう。そこでLoRAを使わず呪文だけで何とかすることにした。

professional photograph of a beautiful japan woman,20yo,(like k-pop idol:1.4),((small face:1.4)),(no eyeliner:1.4),

とこんな感じだ。以降は普通に構図だったり、衣装だったり、背景だったりを書けば良い。

ポイントはこっち系の顔にすると顔が大きくアンバランスになる。もう一つはlike k-pop idolとしてる関係でメイクがステージ用のド派手に。この2つを(small face:1.4)),(no eyeliner:1.4)で打ち消している。参考までに、like以降は好みに書くと結構それっぽくなるので是非試して欲しい。

Negative Promptは、

(worst quality:2),(epiCNegative:0.9),

と、たったこれだけ。後者は本モデル専用になっている事もあり、これを使うことにより、通常より少ない呪文で済んでいる。

笑い話として、絵的にはサーフボードを抱えてるのが良かったのだが、その肝心のサーフボードは出るには出るが、大きかったり、小さかったりサイズ感がメチャクチャ。もちろん持つ手(指)も危うい。そこで少しはましになるかと、ボディボードに変えてみた。結果ヒット率も少し上がりご覧の通り。

次回は、Stable Diffusionの基本2としてCheckpointの次に重要なLoRA = Low-Rank Adaptationについての解説と、面白LoRAなどをご紹介する予定だ。


連載記事一覧

《西川和久》
西川和久

1962年生まれ。プログラマー、IT系ライター、カメラマン(主にグラビア)と、三足の草鞋になってもう四半世紀。

特集

BECOME A MEMBER

『テクノエッジ アルファ』会員募集中

最新テック・ガジェット情報コミュニティ『テクノエッジ アルファ』を開設しました。会員専用Discrodサーバ参加権やイベント招待、会員限定コンテンツなど特典多数です。