3秒の音声があれば本人そっくりの声で日本語・英語・中国語合成できる「VALL-E X」はやはり脅威。MSが非公開にした技術のOSS版を試して実感した（CloseBox）

テクノロジー AI

2023 Aug 28 19:43

松尾公也

テクノエッジ編集部シニアエディター / コミュニティストラテジスト @mazzo

特集

3秒の音声があれば本人そっくりの声で日本語・英語・中国語合成できる「VALL-E X」はやはり脅威。MSが非公開にした技術のOSS版を試して実感した（CloseBox）

わずか3秒の元音声から本人そっくりな音声合成が可能な技術「VALL-E X」が誰でも使える形で公開されました。オープンソース版で、ローカルマシンからWebUIで利用できます。さっそくインストールして使ってみました。

以前、ディープラーニングベースの音声・歌声合成ソフトであるDiff-SVC、リアルタイム処理が可能なAIボイチェンRVCを紹介したとき、自分は記事タイトルに「驚異の」という形容詞を付けました。それでも学習には数十分の本人による音声データが必要で、そこまでのデータを用意するのは容易ではありません。それに対してVALL-E Xでは元データが3秒あれば本人に似た声を生成できるのです。

驚異の高精度AIリアルタイムボイチェン「RVC」で友人になりすまして本人と会話したときの反応（CloseBox） | テクノエッジ TechnoEdge

友人の声をAIボイチェンで真似て、本人と話してみました。本人もショックを受けていたようです。

https://www.techno-edge.net/article/2023/04/12/1146.html続きを読む »

これはごく短いオーディオデータしか残っていない人の声（故人や声を失ってしまった人）を再現する場合には大きな福音ですが、その一方でディープフェイクボイスとして詐欺に使われたりと、大変な脅威と見る人も多いでしょう。それは、この技術を開発したマイクロソフトの行動が示しています。

マイクロソフトが、たった3秒間のサンプル音声から誰かの声をシミュレートし、テキストを読み上げさせられる独自の音声AI「VALL-E」を発表したのが今年の1月。

マイクロソフト、3秒のサンプルから誰の声でも再現できるAI「VALL-E」サンプル公開 | テクノエッジ TechnoEdge

マイクロソフトが、たった3秒間のサンプル音声から誰かの声をシミュレートし、テキストを読み上げさせられる音声AI「VALL-E」を公開しました。

https://www.techno-edge.net/article/2023/01/11/703.html続きを読む »

マイクロソフトはこの技術が社会的に害をもたらす可能性を認識しているとして、そのコードを公開することは差し控えていました。

「使い方を誤ればティープフェイクの音声版にもなり得る」とまで危険視していたこの技術をさらに改良した「VALL-E X」をマイクロソフトがリリースしたのが3月。

今回取り上げる「VALL-E X」は、シンガポール在住の研究者であるPlachtaaさんがこの論文をもとにオープンソース実装したものです。マイクロソフト自身が公開したわけではないので注意が必要です。詳しくはこちらの記事をどうぞ。
VALL-E X の OSS実装を試す

OSS版VALL-E XのGitHubページ

マイクロソフト版になかった日本語もサポート

マイクロソフト版とこのオープンソースソフトウェア（OSS）版の、われわれにとって重要な違いは、日本語をサポートしている点。マイクロソフト版は英語と中国語のみでしたが、OSS版VALL-E Xでは言語として日英中、さらにそれぞれの言語に対して別の言語のアクセントをつけることも可能となっています。つまり、学習元の音声データが中国語、英語、日本語のいずれであっても、それぞれのネイティブ発音だけでなく、英語訛りの日本語、中国語訛りの英語、といった表現が可能になります。

▲OSS版VALL-E XのWeb UI初期画面

ボイスクローンは非常に高速

このOSS版VALL-E Xは、NVIDIA GPU搭載のWindowsマシンにインストールするための方法が公開されており、容易に組み込むことができます。Webブラウザでわかりやすく操作できるWeb UIも最初から実装されているので、学習も推論も簡単に使えます。Hugging FaceとGoogle Colabを使い、オンラインで試すこともできます（Hugging Faceへのリンク）。

今回は、Core i7-13700（13世代）とGeForce RTX 4090のガレリアPCで試してみました。

筆者はこれまで多様な音声合成ソフトを試してきましたが、音源作成がこれほど簡単だったものはありませんでした。なにせ、必要な音声の長さはわずか3秒。それをアップロードして名前をつけ、スクリプト（読み方）を記述して変換すれば、ほぼ一瞬で音源が出来上がります。

▲自分の声を録音した3.4秒のWAVファイルを学習させたが一瞬で完了

▲左下のkoya.npzというファイルが、学習データ（Prompt）。これをアップロードすることで、その声でのTTSが使えるようになる

解説動画を作ってみたので、どういうものかはチェックしてみてください。

TTS変換速度は改善の余地あり

欠点もあります。学習が一瞬で完了するのに対し、TTSの処理速度が非常に遅いのです。数秒分のテキストから音声生成するのにかかる時間は数十秒。これではリアルタイムでタイピングして音声を生成するといった用途には向きません。このアンバランスさは今後のバージョンアップで改善されると思いますが、現時点ではこの非実用性がかろうじてフェイクボイスの壁となってくれているのかもしれません。しかしそれもごく短期間でしょう。

パンドラの匣、完全に開いてしまった感ありますね。

《松尾公也》

Amazon売れ筋ランキング

ノートPC

>> もっと見る

イヤホン

>> もっと見る

コミュニケーションロボット

>> もっと見る

松尾公也

テクノエッジ編集部シニアエディター / コミュニティストラテジスト @mazzo

ショート動画

特集

BECOME A MEMBER

『テクノエッジアルファ』会員募集中

最新テック・ガジェット情報コミュニティ『テクノエッジアルファ』を開設しました。会員専用Discrodサーバ参加権やイベント招待、会員限定コンテンツなど特典多数です。

3秒の音声があれば本人そっくりの声で日本語・英語・中国語合成できる「VALL-E X」はやはり脅威。MSが非公開にした技術のOSS版を試して実感した（CloseBox）

松尾公也

特集

マイクロソフト版になかった日本語もサポート

ボイスクローンは非常に高速

TTS変換速度は改善の余地あり

Amazon売れ筋ランキング

松尾公也

ショート動画

特集

『テクノエッジアルファ』会員募集中

グラビアカメラマンが教える「生成AIグラビア実践ワークショップ」【アーカイブ配信あります】

どこにもないディープな会話が楽しめる「ハカセとアックンのスマホ沼」

自作PCのノウハウをわかりやすく解説するオンラインワークショップ「AI時代の自作PCワークショップ」【アーカイブ配信あります】

さまざまなテーマでオフラインのイベントを開催。ディスコードでコミュニケーションもできます

PS5 Proクラス性能目指す『OS代込みで12万円のゲーミング自作PC』はどの程度まで行けるか。【AI時代の自作PCワークショップ】

Amazonプライム感謝祭で高性能ロボット掃除機MOVA P50 Ultraが半額＋さらに5％オフ。水拭きモップ自動洗浄・乾燥まで対応ハイエンドモデル

生成AIグラビアギャラリー

「AIを使う人材が欲しい」企業と「AIを使いこなせない」現場——ギャップを埋める方法とは

テクノエッジアルファ会員登録はこちら。コミュニティ参加ガイド

CORSAIR K65 PLUS WIRELESS・M75レビュー Macと映える静音75%メカニカルゲーミングキーボード・マウスで勝率も生産性も向上

【LINE公式アカウントはじめました】最新ガジェットとテック情報をお届けします。友だち募集中。

西川善司のバビンチョなテクノコラム（西川善司）

生成AIグラビアをグラビアカメラマンが作るとどうなる？（西川和久）

人知れず消えていったマイナーCPUを語ろう（大原雄介）

Google Tales（佐藤由紀子）

てくのじ何でも実験室（宮里圭介）

松尾公也

特集

マイクロソフト版になかった日本語もサポート

ボイスクローンは非常に高速

TTS変換速度は改善の余地あり

Amazon売れ筋ランキング

SHARE THE STORY この記事をみんなにシェア

松尾公也

ショート動画

特集

『テクノエッジ アルファ』会員募集中

『テクノエッジアルファ』会員募集中