著作権訴訟渦中のミッドジャーニーがAI動画生成スタート。5秒480pという低スペックながら使い勝手がいい理由(CloseBox)

テクノロジー AI
松尾公也

テクノエッジ編集部 シニアエディター / コミュニティストラテジスト @mazzo

特集

2022年「生成AIの夏」の先陣を切ったMidjourney(ミッドジャーニー)が動画生成サービス「Video Model Version 1」に参入しました。Midjourneyで生成、またはアップロードした画像を動かす、Image to Videoでの提供です。

1回で生成できる動画は5秒の480pという、最近のAI動画生成では相当低いスペックですが、実際に使ってみて、かなりいい感触を得たので、そのあたりをレポートしていきます。

ビデオ生成については、提示した2つの動画のどちらが良い動きになっているかをユーザーが判定するVideo Rating Partyなる取り組みを1週間ほど前から始めており、いつリリースされるのか気になっていましたが、意外に早かった印象です。

Midjourneyはディズニー、ユニバーサルから著作権侵害で訴えられていますが、このVideo Rating Partyでは「そんなの無視だ無視」といった感じの動画が挙げられていました。


それはさておき、肝心の「Video Model Version 1」を見ていきましょう。

ビデオ生成はDiscordではなく、Webインタフェースのみでの提供です。現在のMidjourneyではレファレンス画像をアップロードして、それを参照する機能がありますが、この機能を使ってアップロードされた画像をスタートフレームとして使えます。

動きが少ないLowと、カメラや被写体が大きく動くHigh。それぞれAutoとManualを選択できます。Autoの場合にはプロンプトを入れずにおまかせ。Manualではプロンプトに従います。

一度の生成で4個の動画が生成されます。生成時間は1分ちょっと。画面上にポインタをロールオーバーすると、4つのムービーが同時に動いているのを確認できるので、選択がしやすいです。

これがいいと思ったら、その画像の上で、続きの生成を指示できます。Extend Autoの場合はそのまま生成がスタートし、Extend Manualの場合にはプロンプトで指示を与えてSubmitボタンを押します。

4つの選択肢から最良のものを選んで5秒ずつ伸ばし、最長で20秒まで生成できます。生成時間は合計で7分ちょっとかかりましたが、時間をかけてその結果失敗というのがAI動画生成ではあるあるなのに対し、途中経過を確認しながら次の指示がきるのは非常にありがたいです。

生成の途中でも、4つの候補で違いが出ているのを確認できるので、早い段階で決められます。

ズーム、パンなどのカメラコントロールもオプションでサポートしています。

Midjourneyの画像生成からそのまま動画にすることもできます。

他の多くの画像生成AIがそうであるように、Midjourneyもいわゆるワールドモデルを目指していると宣言しています。静止画、動画はその構成要素の一つであり、最終的にはリアルタイムでどんなものでも生成できるように、ということが狙いです。

この点においては環境音や音声、歌までサポートし、物理シミュレーションもよく再現するGoogle Veo 3がかなりの線まで行っていますが、コストが高いのと、ポリシー制限がきついという欠点があります。

現時点での機能面ではMidjourneyはかなり低レベルなのですが、筆者はコントロールしやすく、動きもかなり良いと感じています。静止画の生成の8倍のコストで5秒の動画が生成できるという、コスト面でのメリットも。Proユーザー以上はRelaxモード(優先度を下げる代わりに無制限回数使える)も用意する予定なので、他のサービスのアップスケールやリップシンクを併用しながら、今後の機能アップにも期待したいところです。

Extendで伸ばすときにモーションをLowとHighに切り替えることもできます。かなり自然な動きです。

《松尾公也》

松尾公也

テクノエッジ編集部 シニアエディター / コミュニティストラテジスト @mazzo

特集

BECOME A MEMBER

『テクノエッジ アルファ』会員募集中

最新テック・ガジェット情報コミュニティ『テクノエッジ アルファ』を開設しました。会員専用Discrodサーバ参加権やイベント招待、会員限定コンテンツなど特典多数です。