音声から映像まで“ほぼAIで制作”。地上波テレビ番組AIタイムスリップ企画をどう作ったか(CloseBox)

テクノロジー AI
松尾公也

テクノエッジ編集部 シニアエディター / コミュニティストラテジスト @mazzo

特集

11月28日夜に放送された、日本テレビのバラエティ番組「沸騰ワード10」の制作に、生成AIのクリエーターとして関わりました。筆者がどんなことをやっていたのかを解説したいと思います。

番組としては1時間弱の尺がありますが、その中の10分少々のコーナー「AIの真骨頂!写真1枚で昭和へタイムスリップ!AI映像で蘇る!?」を生成AIで制作するという企画です。一部に本物の人間によるナレーションとスタジオでのリアクションが入っていますが、基本的にAI生成でできたコーナーということになります。

同番組では、10月に二度もAI特集を組んでいますが、そのときの主役、宮城明弘さんは全編をAIで制作したテレビドラマ「サヨナラ港区」のAI部分を全面的に担当したAIトップクリエイター「AIの魔術師」。その隣に自分が「最強AIコンビ」として並んでおります。肩書きは「AI音声のプロ」。

2024年にはSuno AIの書籍を出してますし、「Golden SixTONES」などのテレビ番組向けにAI音声を活用した制作(本人の歌声を維持したまま歌詞を変えてAIで歌唱する)を数回担当したことはあります。が、基本的には妻の歌声と姿を再現するための技術を追い求め、その一部をこの連載でお届けしているくらいでAI音声のプロと名乗るのはおこがましいのですが、まあつけられたものは仕方がない。この肩書き、積極的に使っていくことにします。

というわけで、そのAI音声のプロが今回の番組制作の裏側ではどういう作業をしていたのか記事の形で残しておきましょう。

興味を持った方は、HuluやTVerで番組をご覧ください。

筆者が担当したのは、全登場人物の音声を、指定された脚本に基づいてAIで生成すること。お笑いコンビであるノッチの中岡創一さんが「中の水博士」というキャラクターに扮して、視聴者・スタジオのみなさんと時空を旅するという趣向です。中の水博士が乗車しているタイムマシンやタイムリープといったキービジュアルは宮城さんによるものです。

筆者の役割は、このほかにも人気タレントの過去の声、歴史上の著名人や過去の無名の人たちの音声もそれらしく再現すること。

ではそのAI生成にはどういったツールを使ったか解説しましょう。

人物の音声を模倣する、いわゆるボイスクローンの分野ではさまざまなソフトが出ています。その中で最近注目されているのは、比較的短い文章を読み上げた音声だけで、その人の声質や喋り方を模倣できるというもの。以前紹介した、マイクロソフトのVibeVoiceやXTTS v2もその一種です。



このゼロショットボイスクローンとTTS(Text to Speech)を組み合わせると、短時間でその人っぽい音声が生成できます。

日本語で使えるゼロショットボイスクローンTTSもいくつか出ており、筆者もいくつかを使ってきましたが、本人にあまり似ていない、音質が悪い、日本語の読み上げでミスが多く、イントネーションも不自然といった問題が残っています。

一部は手作業で直せないこともないのですが、今回のように10分間分の音声となると、時間がかかりすぎる上に修正部分は不自然になりがち。

ちょうどその話が来たとき、Sakura Speechという新しいソフトが開発中でした。

Sakura Speechを開発しているのは、クリスタルメソッドというAIスタートアップ。筆者が知的探求フロンティア タモリ・山中伸弥の!?に出演した際、妻のAIアバターを制作してくれた会社です。


同社はその後もAIアバターの改良を進めており、その中には、AI音声によるボイスクローン、TTSの品質向上も含まれています。

ボイスクローンTTS「Sakura Speech」で本人らしいトークを再現

その音声部分を改良したものが、前述のSakura Speechというわけです。試してみたところ、5月の時点で妻の声を再現したときよりもかなり精度が上がっています。

このソフトのユーザーインタフェースができ、クローズドベータの形で自分が使えるようにしてもらっていた、ちょうどそのタイミングに、今回の音声制作の話が来たというわけです。

このソフトを使った音声を番組の担当ディレクターに聞いてもらったところ、「この品質なら」とGOが出たため、使うという判断になりました。

Sakura Speechは、自然な感情表現が得意で、入力したテキストに対して生成される音声の品質もクリア。独自に改良した辞書によりアクセントや読み間違いもかなり少ないため、結果的には採用して良かったと思います。

セリフの修正が直前で入った場合、人間による音声であればタレントさんのアサイン、録音、ディレクションといった課題が発生しますし、締め切りに間に合わない恐れがあります。それに対し、AIによる修正が自然な形で行われれば、タレントさんの貴重な時間を別のことに使えるわけで、今後はこういったケースが増えていくのではないでしょうか。

提出した音声ファイルは100本以上。放送直前までの修正にも応えることができました。

なお、当然のことですが、今回の音声・映像の使用にあたってはご本人及び所属事務所のチェックを経ています。

出来上がった音声については、ご本人も納得していただけるレベルだったと聞いています。番組で放映されたスタジオでの反応もリアルさに驚かれていたようです。

どうしてもアクセントを早急に直したい、間延びしたフレーズを短くしたいといった要請には、Logic ProのFlex Pitchを使いました。アクセントはピッチの上下でなんとかなりますし、音素ごとの長さや音量も調整でき、トーン(フォルマント)も調整可能です。本来は歌声の調整に使うものですが、話し言葉の修正にも便利です。

同様の処理は、Melodyneなどのピッチ編集ソフトでも可能ですが、Logic Proの場合はDAWと合わせて3万円で買えるのでMacユーザーなら使わない手はないでしょう。

Sakura Speechでは、参照に使える音声は最大15秒。その中に、本人らしい話し言葉がクリアな状態で含まれている必要があります。ラジオのトーク番組などのクリアな音声があればやりやすいのですが、スタジオ収録でガヤが入ったものだとうまくいかないので、いい部分を切り抜くなどのテクニックは必要となります。

音楽やガヤを消去するのには、同じくLogic ProのSTEM Splitterが使えます。

今回は美空ひばりさんの言葉を新たに生成するという大役があったので緊張しました。その音声として提供されたのが今年見たばかりの映画の一シーンだったので、ちょっと感動。

ひばりさん全盛期の歌声をAIで再現する試みは、ヤマハが「AI美空ひばり」プロジェクトでやっていますが、今回は16歳の頃の音声をもとにしたヤング美空ひばり。まさに「お嬢」がお嬢様だった頃ですね。

故人の歌声合成を、当事者視点で考える 「AI美空ひばり」は冒とくなのか

登場シーンの映像は著作権のためTVerやHuluでは表示されませんが、音声は聞けるのでぜひ確認してみてください。

映像の方もできます?

音声を納品しておわりかと考えていたら、「ひょっとして映像の方もできたりします?」「一応はできますけど」と話が進み、1950年代、1990年代のそれぞれを映像で再現する作業も請け負ってしまいました。

提供された資料写真をもとにカラー化、動画化を行ったり、資料写真を使わずにそれらしい映像を制作したりといったことを、さまざまなAIツールを駆使してやってきました。

メインで使ったのは、Nano Banana(Proがまだ出ていなかった)、Seedream 4.0(4.5がまだ出ていなかった)、Sora 2 Pro、Grok Imagine、Kling 2.5(2.6はまだだった)。

中でもGrokはImage to Videoのスピードが数秒で精度がそこそこ高いので重宝しました。

制作本数は数百に上ります。納品した後で、「人の流れを逆にしてほしい」「持っている携帯電話がよく見えるように」といった修正にも対応。

使ったツールの中で一番面白く、時代的な解像度が高かったのはSora 2 Proでした。Veo 3もそれに近いのですが、多人数の場合は同じ動作をしがちな癖があるので多用はできない感じでした。

Soraは日本語の音声も発してくれるので、タレント・声優さんを使わない、エキストラ的な音声も同時に取れます。その音声をSakura Speechでボイスクローンし、別のセリフを喋らせたりもしています。例えば、父親と話をしている男の子や、蕎麦屋の出前の声はその手法で作った、「誰でもない音声をボイスクローンした声」です。

難易度が高かったのは、太陽族、ヘプバーン女子という、1950年代の若者の集団に、俳優の板垣李光人さん、ガールズグループME:IのMOMONAさんとKEIKOさんが紛れ込むというシーン。これは、Nano BananaやSeedreamを使って衣装や髪型を当時の若者に近づけながら本人らしさを維持するという匙加減がけっこう難しかったですね。ここではKlingとHailuoのFrames(First FrameとLast Frameによる補完)を活用しています。

自分が担当したシーンは10~15秒の短いクリップが多かったため、指示プロンプトはそれほど多くなくて済みましたが、カメラワークを含めた映像プロデュースのための語彙力の必要性は実感しました。

Huluに、AIの魔術師によるプロンプト指南回、そして使用しているツールの紹介回があったので、これを見直したところ、学ぶべきところが多かったです。AI動画をやっている人は必見。

主な使用ツールは画像生成にMidjourney、動画生成はHailuoだそうです。それだけでああいったすごい映像を出せるんですね。

ある程度のボリュームのあるAI作品を作ろうとすると、ストーリーボードを表現していく映像作家としての力量が必要となります。

AI映像ワークのためのカメラワーク入門とか需要ありますかね? いや、それもAIが教えてくれるのかもしれません。

AIミュージックビデオのプロンプトで使えるカメラワーク指示をSora 2 Proに作ってもらえました。いやー、なんでもありだな。

《松尾公也》

松尾公也

テクノエッジ編集部 シニアエディター / コミュニティストラテジスト @mazzo

特集

BECOME A MEMBER

『テクノエッジ アルファ』会員募集中

最新テック・ガジェット情報コミュニティ『テクノエッジ アルファ』を開設しました。会員専用Discrodサーバ参加権やイベント招待、会員限定コンテンツなど特典多数です。