妻の歌声を合成して10年が経って、本人不在のミュージックビデオがAIでこんな感じになりました（CloseBox）

9月は個人的なイベントがいろいろあります。自分の誕生日と、その前日の結婚記念日がまずあって、まあそれはもう誰も祝う人がいないので一人でケーキを買ってきたり英国リバプールの郷土料理であるスカウスを、クックパッドに残された妻のレシピで作ったりしています。

9月はもう一つ、記念日があるのですが、そちらの方はすっかり忘れていました。

妻が遺してくれた歌声の断片から合成したUTAU音源である「妻音源とりちゃん」による最初の楽曲「ひこうき雲」をニコニコ動画で公開したのが2013年9月1日だったのです。「あれから10年が過ぎたのだなあ」と感慨に浸るのも忘れてやっていたことといえば、やはりAI妻音源による楽曲と生成AIによるミュージックビデオ制作でした。土日はずっとこれにかかりきり。

それが出来上がったので先ほどYouTube公開しました。

曲はユーミン作曲の「時をかける少女」。原田知世バージョンを、妻音源とりちゃん[AI]に歌ってもらいました。仮歌は自分がやって、それをもとに、妻の歌声など1時間分の音源から生成したAIモデルによって声質変換を行うという仕組みです。現在は、最初に使ったDiff-SVCではなくRVCという技術を使っています。

好きな人の声で歌える、破壊的でヤバい「Diff-SVC」はAI歌声合成を民主化するのか（CloseBox） | テクノエッジ TechnoEdge

無料で使えるAIボイチェン「Diff-SVC」を使って、妻の歌声を再現してみました。

https://www.techno-edge.net/article/2023/01/19/731.html続きを読む »

AIボイチェン「RVC」の精度と学習・変換速度が革命的。コナンの蝶ネクタイ的リアルタイムボイチェンも可能（CloseBox） 3枚目の写真・画像 | テクノエッジ TechnoEdge

またゲームチェンジャーです。1時間の音声を20分で学習。リアルタイムでボイチェンできる音声変換ソフトの登場です。しかも変換だけならMacで動く。 AIボイチェン「RVC」の精度と学習・変換速度が革命的。コナンの蝶ネクタイ的リアルタイムボイチェンも可能（CloseBox） 3枚目の写真・画像

https://www.techno-edge.net/article/img/2023/04/09/1130/6029.html続きを読む »

オケはGarageBandで制作。2021年6月にNHKの番組に出演したとき、ライブハウスで演奏した曲なので、オケはほぼそのときのままです。下のビデオの4分ちょっと過ぎあたり。このときはAIを使うとか予想してませんでした。

自分で投稿したミュージックビデオはこちら。数少ない写真を使い回ししています。

今回のバージョンは、リードボーカルだけではなく、ミュージックビデオも違います。とりちゃん（妻のニックネーム）が歌っているかのような、リップシンクを全編にわたって取り入れてみました。

そのときに使ったやり方を紹介します。

写真や画像をもとに、音声に合わせてリップシンク（口パク）させる手法は昔からありました。iPhoneアプリのMotion PortraitやPC/MacアプリのCrazyTalkといったものが10年以上前から使われています。しかし、動きが自然ではなかったので、妻の歌唱に使うことはしませんでした。

・増毛、眼鏡、福笑いまで　顔写真が動いてしゃべる「MotionPortrait」のこんな使い道

希望が持てるようになったのは、D-IDという生成AIサービス会社が「Creative Reality Studio」というサービスを提供していることを知ってからです。有償のサービスですが、1枚の写真と音声ファイルから高品質なリップシンク動画を生成できます。さらに、Stable Diffusionなどと組み合わせるオープンソースのプラグインで「SadTalker」というソフトも登場しました。こちらは全くの無料で、ローカルマシンで生成できます。

この2つをうまく組み合わせたら1曲丸ごとリップシンクできるのではと考えてやってみたのですが、実は両方とも短所があって、実用にはなりませんでした。

D-IDの方は、画像は綺麗なのですが、顔を傾けたときに顔に大きな歪みが生じるという致命的な欠点があります。顔を大きく動かさないというオプションもないので、長い時間喋りっぱなし、歌いっぱなしにすることはできません。この欠点はいつまで経っても修正されません。

SadTalkerの方は、顔を動かし過ぎてしまうという問題があって、普通そこまでは動かさないでしょ、というくらい小刻みにあちこち動きます。この動きを止めて、口元だけ動かすというオプションもあるのですが、それだとまた不自然。その中間地点くらいがいいんですけど。

▲SadTalkerの例

といった感じで悩んでいるという話をXに投稿していたら、識者の方からいいサービスがあると教えてもらったのが、今回のミュージックビデオで使った「HeyGen」です。

既存のオーディオファイルと静止画があれば、そこからリップシンク動画を作成できるというのはD-IDと同様で、同じくサブスクリプション制の有償サービスなのですが、何よりその動きが圧倒的に自然なのです。

▲HeyGenの例

もちろんリアルな人間と比べれば微妙におかしい部分はあるでしょうが、許容範囲に収まっていると思います。もうD-IDは見限ってサブスクはやめようと思います。

HeyGenの料金体系はこんな感じ。自分は月額24ドルのCreatorプランをサブスクしています。このプランでは月に15ポイント使えるのですが、今回のミュージックビデオ制作ではちょうどそのくらいのポイントを使いました。もっと頻繁に制作するのであれば、上位のBusinessプランが必要になりそうです。

今回は、妻の写真をもとに生成した画像をベースにして、RVCで自分の仮歌から妻の歌声に変換した音声ファイルを組み合わせて約20本の動画をHeyGenで作成。それをトランジションさせて、音楽と合わせました。それぞれの動画フレームを少しずつ動かすことで、より自然になるようにしたつもりです。

1月末に第一回AIアートグランプリに応募したときは、まだ間に合っていなかった動画も、リップシンクだけですが、このくらいまではきています。他の動画生成技術も、AnimateDiff、FaceFusion、Runway Gen-2など、有望なものが多数あります。

AI動画が簡単に作れる「AnimateDiff」を試したらやりがい爆上がり。カスタム学習したあの子が自然に動いてるよ（CloseBox） | テクノエッジ TechnoEdge

最近AnimateDiffというAI動画手法がすごいと各所で注目されています。

https://www.techno-edge.net/article/2023/08/10/1731.html続きを読む »

第一回AIアートグランプリを受賞したので自分の作品解説とファイナリスト作品への感想。そしてその先（CloseBox） | テクノエッジ TechnoEdge

第一回AIアートグランプリに応募し、グランプリを獲得した筆者によるレポート。

https://www.techno-edge.net/article/2023/03/13/1006.html続きを読む »

8月31日にスタートして9月20日まで申し込める第二回AIアートグランプリは、こうした最新AI動画生成技術、大規模言語モデルやコード生成技術を上手く使ったものなど、いろんな作品が出てくることでしょう。楽しみです。

そして、その最終審査と、AIハッカソンを行う「第一回AIフェスティバル　Powered by GALLERIA」なるイベントも11月3日と4日に開催されます。落合陽一さんをはじめとするすごいゲストの皆様に混じって、筆者も第一回グランプリ受賞者として何かプレゼンすることになっています。

まずはリップシンクでここまでというところは紹介するとして、残りは何をやるか、これから考えてみようと思います。第二回AIアートグランプリの締切まであと2週間。素晴らしいAIクリエイターのみなさんとリアルでお会いできるのが今から楽しみです。

妻の歌声を合成して10年が経って、本人不在のミュージックビデオがAIでこんな感じになりました（CloseBox）

松尾公也

特集

松尾公也

ショート動画

特集

『テクノエッジアルファ』会員募集中

グラビアカメラマンが教える「生成AIグラビア実践ワークショップ」【アーカイブ配信あります】

どこにもないディープな会話が楽しめる「ハカセとアックンのスマホ沼」

自作PCのノウハウをわかりやすく解説するオンラインワークショップ「AI時代の自作PCワークショップ」【アーカイブ配信あります】

さまざまなテーマでオフラインのイベントを開催。ディスコードでコミュニケーションもできます

PS5 Proクラス性能目指す『OS代込みで12万円のゲーミング自作PC』はどの程度まで行けるか。【AI時代の自作PCワークショップ】

Amazonプライム感謝祭で高性能ロボット掃除機MOVA P50 Ultraが半額＋さらに5％オフ。水拭きモップ自動洗浄・乾燥まで対応ハイエンドモデル

生成AIグラビアギャラリー

「AIを使う人材が欲しい」企業と「AIを使いこなせない」現場——ギャップを埋める方法とは

テクノエッジアルファ会員登録はこちら。コミュニティ参加ガイド

CORSAIR K65 PLUS WIRELESS・M75レビュー Macと映える静音75%メカニカルゲーミングキーボード・マウスで勝率も生産性も向上

【LINE公式アカウントはじめました】最新ガジェットとテック情報をお届けします。友だち募集中。

西川善司のバビンチョなテクノコラム（西川善司）

生成AIグラビアをグラビアカメラマンが作るとどうなる？（西川和久）

人知れず消えていったマイナーCPUを語ろう（大原雄介）

Google Tales（佐藤由紀子）

てくのじ何でも実験室（宮里圭介）

松尾公也

特集

SHARE THE STORY この記事をみんなにシェア

松尾公也

ショート動画

特集

『テクノエッジ アルファ』会員募集中

『テクノエッジアルファ』会員募集中