これはゲームチェンジャーか。AI呪文によるアニメ作成「Kaiber.ai」、ポーズからAI転写できる「T2I-Adapter」を試してみた(CloseBox)

テクノロジー AI
松尾公也

テクノエッジ編集部 シニアエディター / コミュニティストラテジスト @mazzo

特集

これはゲームチェンジャーか。AI呪文によるアニメ作成「Kaiber.ai」、ポーズからAI転写できる「T2I-Adapter」を試してみた(CloseBox)
  • これはゲームチェンジャーか。AI呪文によるアニメ作成「Kaiber.ai」、ポーズからAI転写できる「T2I-Adapter」を試してみた(CloseBox)
  • これはゲームチェンジャーか。AI呪文によるアニメ作成「Kaiber.ai」、ポーズからAI転写できる「T2I-Adapter」を試してみた(CloseBox)
  • これはゲームチェンジャーか。AI呪文によるアニメ作成「Kaiber.ai」、ポーズからAI転写できる「T2I-Adapter」を試してみた(CloseBox)
  • これはゲームチェンジャーか。AI呪文によるアニメ作成「Kaiber.ai」、ポーズからAI転写できる「T2I-Adapter」を試してみた(CloseBox)
  • これはゲームチェンジャーか。AI呪文によるアニメ作成「Kaiber.ai」、ポーズからAI転写できる「T2I-Adapter」を試してみた(CloseBox)
  • これはゲームチェンジャーか。AI呪文によるアニメ作成「Kaiber.ai」、ポーズからAI転写できる「T2I-Adapter」を試してみた(CloseBox)
  • これはゲームチェンジャーか。AI呪文によるアニメ作成「Kaiber.ai」、ポーズからAI転写できる「T2I-Adapter」を試してみた(CloseBox)
  • これはゲームチェンジャーか。AI呪文によるアニメ作成「Kaiber.ai」、ポーズからAI転写できる「T2I-Adapter」を試してみた(CloseBox)

生成系AIは日々進化を続けています。Stable Diffusionの開発元であるStability AIがOpenAIのChatGPTに対抗するチャットAI「Stable Chat」の開発表明をしたかと思えば、ChatGPTのAPIが従来のGPT-3の10分の1という破格の料金で利用可能になるなど、ゲームチェンジャーな出来事が毎日のように起きています。



そんな中、画像生成AIにおいても重要な技術発表が多数起きています。プロンプトだけでは制御が難しかった人体のポーズを簡単に指示できる「ControlNet」が登場したかと思えば、それを上回る「T2I-Adapter」がすぐさま発表されました。画像生成AIサービスを行っているMemeplexでもこの2つが実装され、このうちT2I-Adapterはカスタム学習モデルでも利用できるようになりました。

ポーズ写真を選ぶだけでイメージ通りの画像を生成

MemeplexではAI作画向けに2000枚の実写ポーズ集を人力によるタグ付きで提供しており、このポーズをT2I-Adapterに適用できるサービスを一部ユーザー向けに提供始めました。詳しくはMemeplexを運営する清水亮さんの記事をご覧ください。

▲Memeplexのポーズ集

筆者のコースはこの機能を使えるということで、さっそく使ってみることに。

通常はプロンプトを入れるところにポーズのキーワードを入れて、「素材集検索」のボタンを押します。そこで出た画像から適当なものを選ぶと、それがループバック画像に固定されます。「ポーズのみ引用(T2I)」のオプションをチェックしておくと、そのポーズを適用したイメージが生成される仕組み。

▲素材のポーズを選択して、「ポーズのみ引用(T2I)」オプションをチェック

ときどきポーズが間違った解釈をされることもありますが、特にアップの場合にはよい品質のものが生まれるようです。これからさらにポーズは拡充していくそうなので期待大です。現在は生成画像が崩れやすいアクション向けのポーズが中心のようですが、これからはアップや自然な仕草、手や指の表情も充実していくと、さらに使いやすくなると思います。

プロレベルのフルAIミュージックビデオがいとも簡単に

前回はD-IDのCreative Reality Studioというサービスで、人物の静止画を口パク(リップシンク)させることでミュージックビデオを作成しましたが、今回使うのはKaiberというサービス。


こちらもD-IDと同様に無料と有料のプランが提供されているWebサービスです、静止画ファイル、音声ファイルを入力し、プロンプトを指定することで、アニメーションを作り出すことができます。リンキンパーク「Lost」のミュージックビデオでもこの技術が使われています。

アニメーションには拡大・縮小、左右、上下など、カメラの方向が指定でき(静止した状態も選べます)、ずっとその方向に流れていくのですが、例えば拡大されていくと、そこからまた別の生成物がうまれるといった感じで、特定のテーマに従って次々とイメージが浮かび上がり、それらが繋がっていくという感じです。ブーメランのように途中で戻っていくというオプションもあります。

▲カメラの動きの方向を指定できる。ここではズームインとブーメランを指定

Memeplexのポーズを使ってT2I-Adapterを適用した画像をもとに、アニメーションさせてみました。

▲Kaiberの無料枠で作成

次に、もっと長いものを作ってみます。このために、月額15ドルのPROプランにしました。使えるクレジットは1カ月1000ポイント。足りなくなったら追加購入もできます。

今回は、スチームパンクを指定し、元々作ってあったカバー曲「Goodbye to Love」(オリジナルはカーペンターズ)を音源に指定し、イメージには、Memeplexでカスタム学習させた妻の写真から生成したものを1枚だけ使いました。

▲プロンプトはテンプレートから選べるが、自分で最初から作ることもできる

▲一度に生成できる長さは最大4分まで

最初の1枚を指定すれば、そこから全てを生成してくれます。元の音声データは4分6秒あったのですが、Kaiberが生成できるのは4分まで。

ということで、最後は切り捨てられてしまったので、前後に元のイメージを追加してあります。フレーム補完に多少の難はありますが、ほとんど手を入れずにここまでできるのはすごいのではないかと思います(Topazなどを使えば潤滑化もできそうです)。ミュージックビデオ制作のゲームチェンジャーと言えるかもしれません。

1月末に締め切られた「AIアートグランプリ」の一次審査の結果が3月1日に発表されました。実は筆者はこっそり投稿していたのですが、一次予選を通過しておりました。他の入選作品を見ると、非常にレベルの高いものばかりで、その中に加えていただけたのはとてもありがたいことです。

▲AIアートグランプリの入選作品

実は、ここで紹介したKaiberは、他の方の入選ツイートに対するコメントで知ったものです。優れた作品、先進的なアートを公開していると、自然と情報が集まってくるというのはたしかにあるのだと思い至りました。

10日後の3月12日にAIアートグランプリの審査会がオンライン配信される予定なので、それまでにプレゼン資料を整えるべく準備しているのですが、それまでにどんなゲームチェンジャーが現れるのか、今から期待しています。

2月25日にテクノエッジ主催で行ったAIトークイベントの余韻も冷めやらぬ現在、時のスピードはどんどん加速しており、まるでストーンオーシャンの最後の方みたいですね。

《松尾公也》

松尾公也

テクノエッジ編集部 シニアエディター / コミュニティストラテジスト @mazzo

特集

BECOME A MEMBER

テクノエッジ友の会に登録しませんか?

今週の記事をまとめてチェックできるニュースレターを配信中。会員限定の独自コンテンツのほか、イベント案内なども優先的にお届けします。