今回は別の記事を書いていたのですが、Midjourneyの新バージョンであるV7を試してみたらすごいことになっていたので急遽切り替えて、こちらをレポートすることにしました。

出力される絵の品質向上は置いといて、Draft Modeというものが追加された点が大きいです。
Midjourneyは生成に数十秒かかりますが、まず、Draft Modeではそれが10秒程度に短縮されます。
それだけでもすごいのですが、その右側にあるマイクボタンをクリックすると、Audio Modeが起動します。

すると、プロンプトを音声で指示できるようになるのです。英語だけかと思ったら、日本語でも問題なし。
プロンプト全体を置き換えることもできますが、便利なのは追加指示。髪型や服、背景、表情などを音声の指示でどんどん変更していけるのです。
年齢を5歳上に、10歳下にといった指示を反映させたり、

髪型をショートボブにしたり、

表情を挑戦的にしたり、

アスペクト比の変更といった、追加の指示が手軽に出せるのです。

こうした指示が全て日本語で可能で、その反映が10秒ちょっとなので、ブレードランナーでデッカードが写真を音声でズームアップの指示を出すシーンを思わせる、すごい体験になっています。
ChatGPT 4oの画像生成のインタラクティブ性が話題で、実際に素晴らしいのですが、それよりもはるかに高速で、音声の追加指示が4つのバリエーションで生成されるので、画像生成の体験が完全に置き換わる感じです。
実際に音声入力で画像を変更して生成した動画をご覧ください。
現在は全ての機能がV7モデルになっているわけではなく、Edit、Retexture、UpscaleなどはV6にフォールバックするようになっています。これらの実装は2カ月以内としています。