生成AIグラビアをグラビアカメラマンが作るとどうなる?第55回:2025年秋の陣Part 1はFLUX.2 [dev]でローカル生成(西川和久)

テクノロジー AI
西川和久

1962年生まれ。プログラマー、IT系ライター、カメラマン(主にグラビア)と、三足の草鞋になってもう四半世紀。

特集

生成AIグラビアをグラビアカメラマンが作るとどうなる? 連載記事一覧

前回、2025年夏の陣も終わり今は一段落している……と書いたばかりなのに、その直後、Nano Banana Pro、FLUX.2、Z-Imageが一気にリリース。秋の陣が始まった(笑)。今回はこの中からローカルで生成可能な、FLUX.2 [dev]をご紹介したい。

FLUX.2 [dev] / 生成

FLUX.1 [dev]といえば、少なくとも2024年夏から今年にかけてローカルで生成可能なモデルとしては絶大の人気を誇っていた。今年2025年の夏にQwen-Imageがリリースされ、その人気は二分されてしまったものの、それでも十分人気のモデルだ。


そんなBFL(Black Forest Labs)から、11月28日、FLUX.2がリリースされた。内訳は以下の通り。

  1. FLUX.2 [pro] (サービス/API)

  2. FLUX.2 [flex] (サービス/API)

  3. FLUX.1 [dev] (オープン)

  4. FLUX.2 [klein] (近日公開)

つまり執筆時点でローカルで生成可能なのはFLUX.2 [dev]のみ(FLUX.2 [klein]も公開されればローカル生成可能)。特徴としては、

  1. 32Bパラメータ

  2. 最大10枚のリファレンス画像(Edit機能あり)

  3. 最大4MPの出力

この3点だろうか。パラメータ数は、SDXL 6.8BFLUX.1 [dev] 12BQwen-Image 20Bなので、さらに上を行き32B、巨大なのが分かる。テキストエンコーダーにはmistral_3_smallが使われており、ファイルサイズは、bf16だと35.6GB、fp8で18GBこれだけでもかなり大きい

最大10枚のリファレンス画像は、Qwen-Image-Edit-2509やNano Banana(Pro)でもお馴染み、画像を与え、一貫性を保ったまま何かを生成したり、編集したりする機能だ。つまりこれがあると、顔を似せる程度であれば顔LoRAは必要なく、顔写真を一枚入力すれば良い。

さて、実際にローカルで作動させるためにはComfyUIと各種モデルが必要となる。GPUのVRAMサイズは16GBでもいけるらしいが、不足分はメモリも使うため生成時間がかかってしまう。以下、Workflowと各種モデル。

FLUX.2 [dev]のWorkflow(テンプレートにある)

WorkflowはComfyUIのテンプレートにあり、とりあえず画像入力は2つに対応しているが、同じロジックで増やしていけば最大10枚まで対応できる。ただし画像1枚増えると生成時間がどんどん増えてしまうのでほどほどにした方が良い。

まず、同じPrompta young Japanese woman」でFLUX.1 [dev]、FLUX.1 Krea [dev]、Qwen-Image、そしてFLUX.2 [dev](LoRA/参照画像なし)。解像度は832x1216pxに合わせてある

FLUX.2 [dev]の生成時間はRTX 5090を使い20 stepsで約27秒とかなりかかる。ただし、これはQwen-Imageでも当初そうだったが、その後、4 stepsや8 steps LoRA、Nunchaku対応で劇的に速くなっているため、今後に期待といったところ。

絵的にはご覧のように、新しいモデルほどそれっぽくなっているのが分かる。

FLUX.1 [dev]
FLUX.1 Krea [dev]
Qwen-Image
FLUX.2 [dev]

以下、作例をいくつか並べてみた。無学習のオリジナルのままでかなりリアルに出ている。

FLUX.2 [dev] 作例1
FLUX.2 [dev] 作例2
FLUX.2 [dev] 作例3
FLUX.2 [dev] 作例4

そうそう、センシティブ系は検閲が入っており生成できない。LoRAかFine Tuningした派生モデルが必要となる。上記のテキストエンコーダーに非中国系LLM、Mistral(フランス)を採用したり、同社(ドイツ)のお国柄が出ている感じだ。

FLUX.2 [dev] / 編集

次は編集機能。上記のWorkflowでバイパス(ピンク色)していた部分をONにする。いろいろできるのだが4つほど並べてみた。

まず参照画像として顔写真を使い、それを他のシーンで生成する。これは従来顔LoRAを使ってたパターンだ。ご覧のようにそれっぽい顔が出る。なおLoRAに関してはAI Toolkitが対応予告をしている。

次は文字入れ。日本語もOKなのが分かる。ただしあまり長かったり、複数で複雑な配置になるとダメ。この点はNano Banana Proに軍配が上がる。

顔参照で生成
オリジナル(Grok magineで生成)
日本語の文字入れ
オリジナル(Grok magineで生成)

次にちょっと面白いのが #FF00FF など16進でカラーコードが指定できるところ。作例は実際の色よりちょっと濃くなってるが、指定した色に近いのが出ている。

背景の色を #bc72c6 へ
オリジナル(Qwen-Imageで生成)
参照画像2つ。顔と素材を使って新しい服のデザインスケッチ
オリジナルの顔と布素材

最後は顔と、布素材、2つの参照画像から、新しい服をデザインするスケッチを生成。これはXにNano Banana Pro用として投稿されていたものあったのだが、FLUX.2 [dev]でもそれっぽいのが出る。

もちろん以前ご紹介したTry-onや着ている服を平置き、キャラクターシート、フィギュア化などは当然できる。

他の編集系と比較すると、Nano Banana Proには完敗。これはリソース的に仕方ない。Qwen-Image-Edit-2509は編集する内容によって優っていたり劣っていたり……という感じだろうか。

今回締めのグラビア

今回締めのグラビアはもちろん、扉も含めFLUX.2 [dev]を使い生成。扉は1920x1088px、グラビアは1024x1536px。後者は掲載解像度に合わせて1280x1920pxへアップスケールしている。FLUX.1 [dev]で日本人を出すと、妙な癖があったりしたがそれはなくなり結構自然な感じで出ている。

ただRTX5090を使っても生成に時間がかかり、1024x1536pxだと約1分。1時間で60枚しかガチャれない(笑)ので作例も含め細かい追い込みはできていない。早く高速化LoRAもしくはNunchaku対応して欲しいところ。

FLUX.2 [dev]を使ったグラビア!

2025年秋の陣!?Part 2は、いきなり出てきた6Bという軽量級のモデル。これがなかなか調子いいのでご紹介したい。次回をお楽しみに!

生成AIグラビアをグラビアカメラマンが作るとどうなる? 連載記事一覧

《西川和久》

西川和久

1962年生まれ。プログラマー、IT系ライター、カメラマン(主にグラビア)と、三足の草鞋になってもう四半世紀。

特集

BECOME A MEMBER

『テクノエッジ アルファ』会員募集中

最新テック・ガジェット情報コミュニティ『テクノエッジ アルファ』を開設しました。会員専用Discrodサーバ参加権やイベント招待、会員限定コンテンツなど特典多数です。