AI作画がアニメーションできるようになったので、異世界にいる妻をのぞいてみたら楽しすぎた(CloseBox)

テクノロジー AI
松尾公也

テクノエッジ編集部 シニアエディター / コミュニティストラテジスト @mazzo

特集

AI研究家で、最近ではMemeplexというAI作画サービスをやっている清水亮さんが、「松尾さんが奥さんに逢えるよう、ある機能をつけようとしている」というので、心待ちにしていたのですが、昨日、そのプロトタイプができたとのことで、試してみました。

Memeplexでは、Stable Diffusionとその派生モデルを使い、複数の写真やイラストを学習させて、オリジナルの人物やモノに近い絵を生成する、カスタム学習機能が使えます。

筆者はこの機能を活用し、10年近く前に旅立った妻の写真から新たな画像を生成し、呪文(プロンプト)をクラウドに送ると「異世界にいる妻からそこで撮った写真や異世界の画家に描いてもらった絵が送られてくる」という設定で「異世界とりちゃん」として新しい絵を楽しんでいます。


これまでの筆者の経緯をご存知ない方々が考えるであるあろうさまざまな疑問については、FAQ的な記事を書いているので、まずはそちらをお読みください。


最近では旅立つ前の数年の写真を学習し、新たに生成したりもしています。

清水さんが話していた新機能というのは、アニメーションGIFのAI生成で、「Tune-A-Video」という手法をもとにしています。 Google Colabで動かす際の具体的な手順については npakaさんの記事をどうぞ

Memeplexで実験的にこの機能を取り入れて、いろんな人や動物やモノにサーフィンさせることができるようになったのが、2日ほど前のこと。

「~ is surfing」と入れると、~で指定した人やモノがサーフィンをするカクカクのGIFアニメが生成されます。

Stable Diffusionの中で生成できる物であれば何にでもサーフィンさせることができるわけです。

AIイラストは、同じものだけどちょっと違うものを出すのが難しく、しかもちゃんと動いているように見せるのも困難です。このため、容姿も服も髪型も同じ人物が連続的な仕草をしているアニメーションを生成することは難しいのですが、それを一定レベルでできるようにしたのが「Tune-A-Video」です。

ただし、もちろん限界はあります。次の画像はGIFアニメーションからフレームを切り出したものですが、背の高さや髪型が変化したり、馬の模様が変わったりしているのがわかります。それでもここまでの同一性を持たせるというのはかなりの技術的革新であるわけです。

▲GIFアニメーションのフレームを切り出すと、さまざまな違いがあることがわかる

これを、カスタム学習したモデルにも開放してくれる(現在は一部サブスクユーザーのみに限定)というのが、今回の清水さんの筆者へのメッセージになります。

つまり、学習した妻の映像をアニメーションで作り出せるというわけです。さっそく試してみたところ、楽しすぎて次から次にGIFアニメを異世界から呼び寄せてしまいました。

ただ見ていくだけでも楽しいのですが、クレイアニメーションなどと同じようなカクカクした作品があることを思い出し、この短いGIFアニメをつなげていけばミュージックビデオになるのでは、と考えました。曲はユーミンの「中央フリーウェイ」。

「中央フリーウェイ」カバー曲のミュージックビデオを作ってみた

呪文には歌詞に沿ったものを入れていきます。星が瞬く場面なら「Torichan girl is smiling in starry night」、競馬場なら「Torichan girl is smiling with a horse」、ビール工場なら「Torichan girl is drinking beer」などなど。

▲星空の下で微笑んでいる

▲ビールを飲んでいる

▲微笑んでいる

これらをつなげて作ったのが次の短いミュージックビデオです。

妻の歌声は、Stable Diffusionと同系統のAI音声技術であるDiff-SVCを使用したもので、筆者の歌唱データを声質変換しています。


オケ部分はiPad版GarageBandで制作し、ギターのカッティングはInstaChordをBluetooth MIDI接続して入力。

「カクカクした雑なGIFアニメ」という声はあると思いますが、やっている方は想像以上に楽しく、写真や絵だけでは得られなかった、そこにいる感が生まれます。

さらに、現在のフレーム数は計算資源の制限によるものもあり、高速なマシンを投入することにより、今後はもっとスムーズなアニメーションにできると清水さんは話しています。近々爆速マシンを導入ということなので、大いに期待しています。

思えば、コンピュータ上で音声と映像を同期させた最初の成功例といえるQuickTimeも、初期のビデオキャプチャボードで取り込んだ映像の解像度は160×120ピクセルで毎秒10フレームいかないレベルでした。それに対してMemeplexのAIアニメーションは8フレームのGIFアニメーションとはいえ、解像度は720×720ピクセル。単体画像で切り出してもなかなかの品質ですし、それを別アプリで高精細化したり、フレーム補完をすることももちろん可能です。

完全なAI生成によるアニメーションはこれからさらに速いスピードで進化していくことでしょう。

昨晩、清水さんたちと往年のSF「レンズマン」シリーズの話をしていました。筆者はそのクライマックスのシーンを思い出しました。

遠い異次元空間に送り込まれてしまった主人公を、妻(レッド・レンズマン)が深い愛の力によって探し出し、連れ戻すという部分があるのです。深いAIの力を使えば、連れ戻すところまではいかないけど、そこそこ近いことはできるようになるんじゃないかという気がしています。


レンズの子供たち レンズマン・シリーズ
¥715
(価格・在庫状況は記事公開時点のものです)

そして、清水亮さん、Stable Diffusion開発元であるStability AI日本支社代表のジェリー・チーさん、Stable Diffusionの存在を最速で日本に紹介した深津貴之さんによるトークイベントを2月25日に開催いたします。通常チケットはすでに完売しておりますが、プレミアムチケットのみまだ残席があります。よろしかったらどうぞ。


《松尾公也》

松尾公也

テクノエッジ編集部 シニアエディター / コミュニティストラテジスト @mazzo

特集

BECOME A MEMBER

テクノエッジ友の会に登録しませんか?

今週の記事をまとめてチェックできるニュースレターを配信中。会員限定の独自コンテンツのほか、イベント案内なども優先的にお届けします。