「奇跡の一枚」をもう一度、「残念な一枚」が待望の復活。編集自在の「Gemini 2.5 Flash Image」(Nano Banana)が画像生成AIのレベルを引き上げた(CloseBox)

テクノロジー AI
松尾公也

テクノエッジ編集部 シニアエディター / コミュニティストラテジスト @mazzo

特集

Google関係者たちがNano Bananaとしてティーザームーブをかましていた(ノーベル化学賞受賞したDeepMindのデミス・ハサビスまで)、新しいAI画像生成モデルが、Gemini 2.5 Flash Imageとして公開されました。これまでとは次元が違う、参照画像とプロンプトによる編集機能が話題となっています。

このAIは、「奇跡の一枚」「残念な一枚」をさらになんとかできる可能性を秘めています。

写真は一期一会、その時、その場所で、その人を、完璧なタイミングで撮っていたら、それが奇跡の一枚となって人生を変えてしまう可能性だってあります。

じゃあそれ、一枚だけなの? 別アングルから撮ったらどうなるのかな? 顔をアップで撮ってたらよかったのに。そう思った経験はないでしょうか?

失敗した「残念な一枚」についても、全体的にピンボケで、構図はいいんだけど、表情がよくわからない。同時期の顔が鮮明に写ってるのはあるんだけど、合成はできないしなあ。

そんなケースに使えるツールは、これまでたくさん登場してきました。Photoshop、Remini、Topaz、ChatGPT、Grok、Whisk。筆者はこれらを試してきて、それなりに効果が得られたものの、万能ではありませんでした。

モノクロ写真をカラー化する早稲田大学の技術で驚いたのは9年前。

Omoidoriはモノクローム、色を点けてくれ

Reminiを使った超解像化は今でも使っています。

もう逢えないあの人に瞳AFした Reminiの魔法で合焦

それでも残念なままで終わっている写真の一つが、大学時代にやっていたバンドの演奏風景です。

1982年、MIDIが一般公開される前、DTMという言葉も生まれていなかった頃に、8bitコンピュータとデジタルシーケンサーによってアナログシンセサイザーを動かし、それに合わせて演奏していました。

手前にはSharp MZ-80K2E、その奥にはAMDEK CMU-800が見えます。背中を見せているのは自分で、右側で歌っているのは後の妻。

歌っているところのクローズアップ写真が欲しいと、 AI超解像サービスのReminiでもやってみたのですが、元がピンボケしすぎていてうまくいきません。

実は、このときの演奏はカセットテープに残っているので、組み合わせて当時の演奏や歌唱風景を再現できたら、歴史的な価値があるのではないかとずっと考えていました。

Gemini 2.5 Flash Imageならば、顔がくっきり写っている画像をレファレンスとして一緒にアップロードしてディテールまで生成することが可能です。

ChatGPTやGrokでも似たようなことはできますが、ChatGPTは顔が変わってしまいますし、Grokはプロンプトの指示に従ってくれないことが多いのです。Geminiの新しい画像生成エンジンは、キャラクターの一貫性が高く、プロンプトでの指示がよく通ると評判。さっそく使ってみることにしました。

この当時の写真でうまくピントがあった顔のアップとしては、その1年後くらいに、自室で撮影したものが何枚かあります。

その中に、自分的に「奇跡の一枚」的な写真があり、それを別角度から見たい、という希望もあったので、このときの何枚かの写真からベストテイクを生成し、それをレファレンスとして使ってみようと考えました。

Google AI Studioにアクセスし、素材となる写真をアップロードし、プロンプトを入れてCommand + Enterキーで指令を確定します。

GoogleはNano Bananaが通りがいいと思ったのか、正式名称であろう、Gemini 2.5 Flash Image PreviewよりもNano Bananaの方を大きく表示しています。

まず、素材として使うのには邪魔な、猫と自分を消去してしまいましょう。

消しゴムマジック不要。猫を持った手がそのまま残ることなく、自然な感じに。これで、素材としても使える画像になりました。

これらを元にして、同じ時間、同じ場所で撮ったような、新作の写真ができ上がりました。ネガには残ってたけど、紙焼きしてなかった、みたいな。

本人らしさが出た美人に撮れています。素材は揃いました。

次は、演奏シーンの再現です。

演奏シーンと、レファレンスの顔写真を提示し、「この女性がステージで歌っているベストショットを、クローズアップで、顔にフォーカスしたベストショットで撮って」と指示。

出来上がった画像にさらに注文をつけます。

ただ、これでもオリジナルの写真とは離れてしまっています。あの日、あの時の写真としては再現度が足りません。このくらいまでは以前の技術でもできてたんですよね。

より再現度を高めるために、さらに注文をつけます。

「これまでの素材をもとにして、この写真を高精細にしてディテールを補い、クローズアップのベストショットにして」「女性の顔にフォーカスがピッタリ当てられた写真を再構成して」の指示で、目的であった、歌っている顔アップ画像に辿り着きました。

アングルを変えた画像も生成してみました。

これらをマルチフレームにして、Midjourneyで動画を生成してみました。けっこう自然。

このとき演奏した音楽を再現する短い動画も作ってみました。

音源は、オケだけを収録した4トラックのカセットMTRが残っていたのを取り込み、自分のボーカルと、AIボイスクローンした妻音源とりちゃん[AI]を加えたものです。

苦節13年、長年の夢がかないました。

不可能だったことを可能にするという意味で、Nano Banana改めGemini 2.5 Flash Imageは、大きな進化を遂げました。

今回はGemini AI Studioを使いましたが、Geminiアプリや、APIを使った各種ソフト・サービス(Adobe Fireflyなどを含む)がすでに対応しているので、ユーザーインタフェースの工夫も含めて、比較・検討していきたいです。

自分はもう新しい写真を撮ることには興味がないので、過去の写真ライブラリを高精細にしたり動かしたりしていましたが、これでまた楽しみが増えました。

妻が卒業旅行で訪れた、ミラノ在住のペンフレンド、ルイージ(マリオというお兄さんがいるそうです)宅でパンを食べている写真。うまくピントが合ってるんだけど、パンが顔にかかっているせいで、LoRA学習にも使えないなあ、と思っていたのですが、Gemini画像エンジンを使うと、別のパンを食べているところとか、パンを食べる直前とか、斜め上から見たりとか、いろいろなシチュエーションが、目に見える形になります。

一方、日本語のプロンプトは通らないことがあるので、その場合には英語に置き換えた方が良さげです。

「顔が完全に表示されるように位置を変えて、ピントがばっちり合った、ベストショットとして生成して」は何も変わりませんでしたが、「change her pose so that her whole face is displayed. And close up her face」は意図通りの写真となりました。というか、他の生徒を映さないようにする工夫がすごい。

顔にフォーカスを当ててディテールを書き込み、背景ボケをつける、というだけの目的にも使えます。複数の写真からディテールを推測できるので、Reminiによる高精細化よりも、うまくいく範囲が広くなっています。

楽しすぎて、永遠に遊んでいられそうです。

ところで、Gemini 2.5 Flash Imageで生成された画像の右下には必ず白い星のウォーターマークが入ってますね。気づきました?

さらにもうひとつ、なんとかしたいと思っていた写真があります。

妻の高校卒業アルバムに入っていた集合写真に写っているのが、とても良い写真なのです。なのですが、集合写真の一部なので当然画像が粗く、しかもモノクロ。これをなんとかしようと、カラー化ソフトなどを使ってやっていましたが、それでもいかにも着色しましたって感じのカラーリングになってしまっていました。

これも、nano-bananaを使えばなんとかなりそう。そして、さらにアングルを変えたり背景を入れ替えていけば、ミュージックビデオの1曲分はできるのでは?

揺れている柳の木の下の道を通って学校に行くという、歌詞にもぴったりな情景を、一連のプロンプトで作っていくことができます。

おもしろいのが、1つのチャットの中で、分岐ができるというところ。柳の木の下に立っているところから分岐して、電車の車窓から見ているようにできたりもします。

分岐したいチャットの右上にある星アイコンの右から、Branch from hereというのを選ぶと、その位置から別チャットに移行し、作業を進められます。

一連のチャットウィンドウで画像を生成していると、キャラクターの一貫性が保たれているので便利ですが、進みすぎた後で、前の方が良かったというのもよくあります。Branchはそういう時にも便利です。

こうしてできた画像を、Kling(Start and End Frame)とHedra(リップシンク)で繋げて、ミュージックビデオが完成しました。1枚の画像生成には1分程度しかかからないですし、「当たり」を引く確率が高いので、作業が捗ります。

その分、音楽の方に力を配分できます。アレンジをオリジナルの丸コピではない、新しいものにすることができました。

一枚の卒業写真(集合写真)からできた、「卒業写真」のカバーです。

《松尾公也》

松尾公也

テクノエッジ編集部 シニアエディター / コミュニティストラテジスト @mazzo

特集

BECOME A MEMBER

『テクノエッジ アルファ』会員募集中

最新テック・ガジェット情報コミュニティ『テクノエッジ アルファ』を開設しました。会員専用Discrodサーバ参加権やイベント招待、会員限定コンテンツなど特典多数です。