複数話者ポッドキャストがAIだけでできるから、俺たちはもうお払い箱なの? 話題のVibeVoiceをインストールして試してみた(CloseBox)

テクノロジー AI
松尾公也

テクノエッジ編集部 シニアエディター / コミュニティストラテジスト @mazzo

特集

実用的なTTS(Text to Speech)が出てもう長いこと経ちます。隠れマルコフモデルを使ったOpen JTalkで自分のボイスクローンを作り、ポッドキャストに参加させたり、RVCで相方の声真似をして遊んだり、いろいろ声の実験をしてきました。

最近は「ポッドキャストできます」というサービスがいろんなところから出てきてますが、一番の脅威はGoogleのNotebookLMでしょう。YouTube、PDF、テキストなどのリソースを与えれば、そのテーマで5、6分のポッドキャスト解説をしてくれるのです。

すでに日本語にも対応していて、次はこれに図解がついた動画解説まで日本語に対応するそうです。すでに使えている人もいますが、自分のところはまだ。今週中には来るでしょうけど、待ちきれません。

そんなところへ、多人数ポッドキャストができるというソフト「VibeVoice」が発表されました。開発したのはマイクロソフトで、なんとMITライセンスのオープンソースソフトです。

最大で4人まで、Speaker 1、2といったヘッダーをつけた文章をスクリプトとして用意することで、ポッドキャスト風やらいろいろなトーク番組を作っていくことが可能です。表現力も豊かで、コンテキストを理解した感情表現ができるようです。調子っぱずれの歌も出てきます。

歌がちゃんとメロディーになりきれないところは、ChatGPTの音声モードっぽいですね。

残念なのは、対応言語が英語と中国語だけ、というところ。と思っていたら、Xへの投稿で「日本語も通ったよ」というのが流れてきました。じゃあやってみようということで、自分のマシンにインストールしてみました。

Hugging Face Spaceのデモもあるのですが、そちらはキューが大変なことになっていて、まったく進まなかったりエラーになったりで、やはりローカルで、ということになりました。

最初はMacBook Proにインストールを試みたのですが、どうにもうまくいかず(成功した人もいるようですが)、RTX 4090搭載PCで再挑戦。こちらはなんとか設定できました。

スクリプトとして用意したのは、自分でやっているポッドキャスト番組のパートナーたちの設定を借りて、ChatGPTに適当に作ってもらったもの。

日本語未対応というだけあって、日本語は通ったり通らなかったり。ひらがな・カタカナのみにしても不思議な感じになったので、いったん漢字・かな混じりで流しながら、おかしいところを重点的にひらがな・カタカナに開いていく地道な修正をしていきました。

こういうのが可能なのも、生成スピードが非常に速いからです。

2分30秒のオーディオファイルを作るのに、2分ですみました。実時間より高速です。オーディオは途中からストリーミングされるので、27秒あたりから聞こえ始めます。

NotebookLMの場合は生成にかなりの時間がかかるのと、いったん生成してしまったら修正できないのが弱点です。VibeVoiceはローカルPCで高速に生成できるので、そこはあまり気にせずにガンガン修正していけます。

最終的に、スクリプトはだいぶ漢字が少なくなり、話しにくい言葉は別の英単語に置き換えたりしました。

最終的なスクリプトはこちら。

Speaker 1: Drikinです。サンフランシスコ在住のシステムエンジニアで、今日はポッドキャストをおとどけします。テーマはこのところ、もりあがっているAIとクリエイティブの世界です。

Speaker 2: どうも、ニシカワ・ゼンジです。にほんでテクノロジージャーナリストをしています。プロセッサやスリーディーCG、ゲームに詳しいので、その視点からAIとゲームエンジンの関係について話していきたいですね。

Speaker 3: はい、まつおです。日本のテックメディアのエディターで、自分自身もAIクリエイターです。実際にさくひんを作りながらためしているので、今日はリアルな体験をまじえて話していきたいと思っています。

Speaker 1: サンフランシスコでもAIクリエイターの活動はどんどんかっぱつになっています。ことし、ニューヨークで行われたExhibitionでも、AIがせいせいしたおんがくや3Dアートがちゅうもくされていました。

Speaker 2: おもしろいですね。日本でもゲームスタジオがAIを使ってモデリングのこうりつを上げたり、リアルタイムでシーンをレンダリングする実験をしています。最新のGPUやCPUが、その大きなかぎをにぎっているんです。

Speaker 3: ぼくがAIを使っていちばんすごいと思うのは、人間のクリエイティビティをひろげてくれることですね。こんなビジュアルがほしい、と思ったときに、すぐしさくできる。これまで時間やコストでむずかしかったことが、かなりみじかになったと感じます。

Speaker 1: そうですね。システムエンジニアのしごとでもAIのかつようは大きなテーマです。特にコードせいせいやデバッグのサポートはとてもじっせんてきです。

Speaker 2: ゲームのせかいでも同じです。クリエイターが作りたいシーンを素早くかたちにできることは、プレイヤー体験を進化させるかぎになるでしょう。

Speaker 3: 結局、AIと人間のきょうぞんが重要なんですよね。クリエイターのいしをどうAIに乗せるか、そこが面白くも難しい部分だと思います。

Speaker 1: 今日はこのへんでしめましょうか。次回はもっとグラフィックスやゲームエンジンについてふかぼりしてみたいですね。

Speaker 2: いいですね! あたらしいプロセッサの話も絡めて。

Speaker 3: それでは、今日のポッドキャストはここまで。きいてくださって、ありがとうございました。またじかい、おあいしましょう!

漢字とすべきところがひらがなになっているのは、そうしないと読み間違えるからです。たぶん、中国語っぽく読んじゃうんでしょうね。

そうこうして、長さ2分半の複数話者ポッドキャストが出来上がったのでした。

使った話者はいずれも本来は英語キャラクターなのですが、一応日本語をしゃべれています。これはこれで面白いですね。もちろん、中国語話者に日本語を無理やり話させることもできます。

Speaker Selectionというところで、話者を選ぶようになっています。

現在のところ、ボイスクローンはできないのですが、そういえばマイクロソフトはゼロショットのボイスクローン技術を持っていたのにコードを公開してませんでしたね。


同様の技術はすでに多くのオープンソースソフトが公開されています。数秒のボイスサンプルで本人に近いText to SpeechができるXTTS v2という技術は、筆者が先週実装した、妻のAIアバターの音声部分でも使っています。


VibeVoice自身、LLMとしては自社のPhiではなくてQwenを使っているようですし、ボイスクローン機能も追加してくれないですかね。

VibeVoiceのもう一つすごいのは、スクリプトは長くてもOKなところ。最長で90分の対話音声を作ることができるのです。

これはわれわれ人間のポッドキャスターもうかうかしていられません。

でもとりあえずは大丈夫。backspace.fmは毎回2時間以上あるから……。

ところで、VibeVoiceというネーミングはその昔、IBMが売っていたViaVoiceを絶対に意識してるんだと思うんですよね。あれは音声認識ソフトでしたけど。

《松尾公也》

松尾公也

テクノエッジ編集部 シニアエディター / コミュニティストラテジスト @mazzo

特集

BECOME A MEMBER

『テクノエッジ アルファ』会員募集中

最新テック・ガジェット情報コミュニティ『テクノエッジ アルファ』を開設しました。会員専用Discrodサーバ参加権やイベント招待、会員限定コンテンツなど特典多数です。