生成AIグラビアをグラビアカメラマンが作るとどうなる?第54回:ローカル生成からクラウドサービスにちょっと浮気中(西川和久)

テクノロジー AI
西川和久

1962年生まれ。プログラマー、IT系ライター、カメラマン(主にグラビア)と、三足の草鞋になってもう四半世紀。

特集

生成AIグラビアをグラビアカメラマンが作るとどうなる? 連載記事一覧

本連載では新しいCheckpointやLoRA、ComfyUIのカスタムノードなど、ローカル生成をメインで扱っているのだが、2025年夏の陣も終わり今は一段落している。そこで今回はサービス系で筆者が最近使っているものをご紹介したい。

Google Mixboard

11月11日、GoogleからいきなりリリースされたのがMixboardtxt2imgimg2imgに対応し、裏では多分Nano Bananaが動いている。つまり画像生成ができて編集も可能。

Mixboardトップ画面

これだけなら既にローカルでもQwen-Image-Edit-2509があるのでたいして驚かないのだが、注目はそのUI!

まずtxt2imgでPromptに適当なキーワードや日本語英語に関わらず文章を入れると(ここでは”紅葉秋服を着た可愛い日本人美女”)、関連する画像がパラっと15枚表示される。

秋、紅葉、秋服を着た可愛い日本人美女とPromptに入れ出てきた画像15枚

Nano-Bananaは編集で有名だがもちろんPromptからの画像生成も可能。クオリティはご覧の通り。Qwen-Imageなど最新と比較しても何ら劣るところがない。なかなかの絵だ。

操作はキャンパスの移動/拡大、選択した画像を再生成/似たようなのをもっと出す/複製/削除/アップロード。ダブルクリックすると編集画面となり、文字入れやアノテーション用に線を書くこともできる。これは線でザクっと位置を指定、Promptでそこに何かを書き込んだり消したりする時に使う

画像を選択すると、再生成/似た様なのをもっと出す/複製/削除/ダウンロードのアイコンが並ぶ
ダブルクリックすると編集画面へ

まず簡単な編集から。例えばこの画面中央にある写真。いい雰囲気なのだが、残念ながら顔が途中で切れている。そこで”体の向きやポーズなどは変えず、顔を含めた全身へ”とすると少し引きで全身の写真が生成される。ちょっと顔が外人っぽいので”顔を日本人へ”と変更。

画面中央にある写真。残念ながら顔が途中で切れている
体の向きやポーズなどは変えず、顔を含めた全身へ
顔を日本人へ
季節は夏、背景はビーチ、薄手でミニなサマーセーターを羽織ったビキニ姿

と、こんな感じで画像をPromptで編集できる。もちろん季節や場所、衣服なども変更可能だ。Google系は検閲が厳しいのだが今のところ”季節は夏、背景はビーチ、薄手でミニなサマーセーターを羽織ったビキニ姿”でも生成可能。もちろんビキニだけでもOKだ(笑)。

ダブルクリックで編集画面を開き場所を指定、”愛犬と散歩”とすればその位置に愛犬が書き込まれる。

枠で場所を指定。”愛犬と散歩”

次は複数画像の合わせ技複数選択は[SHIFT]キーを押しながらクリック、Promptの部分に選択した画面のサムネイルを表示。この状態でPromptを書けば良い。また選択した画像をまとめて移動も可能だ。

背景を合わせつついい感じにする。構図はアップで

いい感じで合成された。"構図はアップで"を入れないと建物の絵が強いのか、かなり引いた構図になったため書き加えている。

次はimg2img参照画像をアップロードするパターンだ。新規でProjectを開き、編集したい画像をアップロードする。Promptの左に[+]印があるのでこれを使うか、ドラッグ&ドロップでも良い。

簡単な例を2つ。一つは”衣装の平置き画像”。もう一つは2つの画像を使い”着替える”。この場合は選択する必要はなく、キャンバスに画像を2枚置くだけで良い。

衣装の平置き画像
着替える。出力画素数は832x1248px

いかがだろうか? 今のところ無料でGoogleアカウントさえあれば利用可能。ComfyUIでQwen-Image-Edit-2509を使うよりユーザービリティは良く、Nano BananaのようにAPI毎の課金もされず、ここまでできるのだから使わない手はないだろう。出力画素数は832x1248px(アスペクト比による)。FLUX.1 [dev]やQwen-Imageと同レベルだ。

進化が止まらないGrok Imagine

次はGrok Imagine。以前からtxt2imgtxt2img2vidには対応していたが、11月7日にtxt2vidにも対応した。また10月末(Halloween前後)頃から画風が変わり、それ以前はご覧のようにHiDreamっぽい雰囲気だったのが、一気にリアル化

10月末以前のGrok Imagine(1/2)。HiDreamっぽい雰囲気
10月末以前のGrok Imagine(2/2)。HiDreamっぽい雰囲気
最近のGrok Imagine(1/4)
最近のGrok Imagine(2/4)
最近のGrok Imagine(3/4)
最近のGrok Imagine(4/4)

またパラメータ数が増えたのか、Promptが同じだと20BのQwen-Imageとよく似た画像が出る。

Qwen-Image(1/2)
Qwen-Image(2/2)
同一PromptのGrok Imagine(1/2)
同一PromptのGrok Imagine(2/2)

ご覧のようにQwen-Image(上段)の画像と並べてもどっちがどっち?的なレベルだ。

生成可能枚数は?だが、1つのPromptで同時6枚出力。結構速く、さらにスクロールするとリミットに達するまでドンドン生成する(笑)。動画は1つだがこれも他のサービスと比べれば時間はかなり短く。上限を超えても2時間(?)で解除。正直、顔LoRA不要なケースはこれでいいのでは!?と思うほどだ。解像度は縦位置で786x1168px。動画は通常464x688pxだが、Upscaleに対応しており926x1378pxになる。

サービス系では最も検閲が緩く、下手にlarge breastsとかPromptに書くと掲載できない画像や動画が出てきてしまう(笑)。載せられないものは作らないので、ここまでの必要はないのだが、何がひっかかってダメなのか分からないようなサービスよりストレスは溜まらない。

加えて嬉しいニュースとして、6秒だった動画が近々(最大?)15秒になるという。この調子で頑張ってほしいところ。

今回締めのグラビア

今回は、扉がMixboard。Promptに”アスペクト比16:9のみ”と書けばこの比率ばかりの画像が生成されるので一枚選んで少しPromptで編集している。

グラビアはGrok Imagine。ありがちな一部色を残した白黒写真。どちらも掲載解像度長辺1920pxには足らないので、後処理でUpscaleした。

Grok Imagineを使った白黒グラビア!

これが出るならローカルで生成する必要は…!?っと思ってしまうほどの画風で雰囲気も出ている。いい時代になったのか?困った時代になったのか?(笑)。

生成AIグラビアをグラビアカメラマンが作るとどうなる? 連載記事一覧

《西川和久》

西川和久

1962年生まれ。プログラマー、IT系ライター、カメラマン(主にグラビア)と、三足の草鞋になってもう四半世紀。

特集

BECOME A MEMBER

『テクノエッジ アルファ』会員募集中

最新テック・ガジェット情報コミュニティ『テクノエッジ アルファ』を開設しました。会員専用Discrodサーバ参加権やイベント招待、会員限定コンテンツなど特典多数です。