3カ月ほどベータテスターをしていた、DreamtonicsのAIボイスチェンジャー「Vocoflex」。その製品版が正式発売されたので、購入しました。
ベータ版でもすごく便利に使っていたのですが、さらに改良されているというので、製品版としてのファーストインプレッションをお届けします。
■ Vocoflex とは
Dreamtonicsはその品質で定評のあるAIベースの歌声合成ソフト「Synthesizer V」の開発メーカー。
Vocoflexは、RVCなどのAIによるボイスチェンジャーをさらに使いやすく高性能に発展させたもので、VSTやAudioUnitsといったプラグインも揃っていてDAWを使うDTMユーザーとも親和性が高いものです。
気になる価格ですが、3万1900円と、予想よりかなり手に入れやすい価格帯となりました。日本ではAHSからダウンロード販売されています。また、Synthesizer Vとのバンドルセットも用意されています。
■なぜソフトを買うのに本人証明が必要なのか
AIを使った音声変換は、特定の声を再現する歌声合成とは異なり、元になる声さえあれば無限に再現できる半面、悪用されかねないという負の側面もあります。
RVCやDiff-SVCでは、既存の歌手や声優の声を許可なく使って、別の曲を歌わせたりといったことが横行しています。
Diff-SVCの場合には、そのためにソフトウェアの公開が一時停止される事態となりました。
そういった問題への対策として、Vocoflexは導入時には公的な身分証明書と、本人写真撮影が必要となっています。
パスポート、運転免許証、マイナンバーカードなど、顔写真がある公的身分証明書が必要で、そうした証明書の写真と、スマートフォンで撮影した自分の顔写真を提出。その審査にパスして初めて購入プロセスに移ることができます。
ここまで厳しい本人確認を受けるのは筆者は初めて。こうして確認された本人情報は、生成した音声に含まれた電子透かし(ウォーターマーク)と紐づけられるため、悪用された場合には購入者を特定できるようになっています。
この仕組みが抑止力となり、利用できる権利を持たない音声を使って生成した場合には、その責任を問われることになります。Dreamtonicsは次のように述べています。
私たちは倫理的なAIの使用方法を遵守し、道徳的・法的な一線は決して踏み越えてはならないと考えています。また、アーティスト、俳優、ボーカリスト、ユーザーの皆さまの完全な知識と透明性をもって、クリエイティブな可能性を広げるために「Vocoflex」を使用することを奨励しています。
■製品版では何が変わったか
ベータ版期間中も度重なるバージョンアップが行われ、初期バージョンと比較するとかなり使いやすくなっていたのですが、製品版では更なる改良が加えられていました。
まず、レイテンシー(遅延)が、従来の45msecから35msecへとさらに低減されています。これは非常に大きなポイントで、45msecでも他にはないくらいの低遅延だったのですが、事実上問題のないレベルでのリアルタイムボイチェンが可能となっています。
筆者は自分の歌声をリアルタイムで妻の歌声に変換するライブを年末に予定しているのですが、新バージョンのVocoflexならばそうしたことが問題なくできることになります。
音質も大きく改善されており、高負荷時のノイズが起きにくくなっているようです。
操作面でも改良が施されています。
Vocoflexでは、異なる元音声から生成した音声モデルを複数配置し、それらを切り替えたり中間的な音色にしたりといったことが可能です。その操作は、画面のXY座標でポインタを動かすことによってマニュアル操作できるのですが、これにキーボードショートカットを割り当てることができるのです。
そのショートカットは、MIDIキーボードでも、MacやWindowsマシンのキーボードでも操作可能です。
筆者は、妻の1982年収録の音源と、2012年収録の同一楽曲のボーカルトラックをVocoflexでモデル化して使っていますが、この2種類をミックスしたり、単独で使ったりを、曲調や展開、表現によって瞬時に切り替えることができるようになりました。Vocoflexではこれをカーソルピンと呼んでいます。
画面右下の、Google Mapのピンに似たアイコンをクリックすると、メニューが現れます。
現在のカーソル位置で+ボタンを押すと、その場所が登録されます。
2つの歌声モデルの中間的なものに1、2012年の歌声に2、1982年の歌声に3を割り当てています。
手元のキーボードの数字キーで1、2、3を押すと、リアルタイムで音色を切り替えられるという仕組みです。MIDIコントローラーでも可能なので、フットスイッチで声色を自由に切り替えることも可能。
カーソルピンはライブ以外でも便利です。筆者はLogic Pro 11とVocoflexを組み合わせて使っているのですが、そこで使う声色の選択時に、ボーカルトラックにVocoflexプラグインをインサートして、歌ったり再生したりしている最中に音声モデルを切り替えながら最適解を探すといったことができます。
■ 豊富なプリセットボイスもあるので無限の声色が手に入る
自分が権利を持って使えるボーカルデータがないという人向けには、カラーコードにアサインされたプリセット音色をさらにXY方向にフォルマント(男声、女声)、トーン(明るい、暗い)を動かすことでバリエーションを持たせることができます。自分の声をそれらの声色とミックスすると、新しい歌声を作ることも可能です。
さらに、プリセットボイスも用意されています。Passionate Male J-Pop(情熱的な男声J-Pop)といったわかりやすいネーミングのプリセットボイスが40種類。これらはそれぞれ複数のミックスが可能なので、事実上、無限の声色が作れるといっていいでしょう。
「好きな曲のボーカルが気に入ったから、そのボーカルをVocoflexに学習させて、他の曲でも使えるようにする」といったことも可能です。他の人が権利を持っている曲ではやってはいけないことですが、可能なケースがあります。それは、SunoやUdioなどのボーカル曲。
こうしたAI作曲サービスの場合、気に入ったボーカルが見つかったとしても、その歌声は一期一会。次に出会えるのはいつになるかわかりません。あのボーカルにぴったりの曲なのに、もう彼や彼女に歌ってもらうことはできないんだよなあ……なんてこともあります。
そんな時、Vocoflexは便利。特に、最近ではSunoもUdioもステム分離機能を備えており、ボーカルだけを分離して、Vocoflexに学習させ、その歌声を保存することができるのです。
そして、その歌声にプリセットやカラーコードボイスをミックスさせてさらにお気に入りの声にすることも可能。声をカラーパレットのように自由自在に作れる時代が来たのです。
これだけの潜在能力があるソフトなので、本人証明がないと買うことすらできないというのはわかる気がします。
(▲Sunoのボーカル、Vocoflexのプリセット、カラーパレットを瞬時に切り替えられる)
Sunoのボーカルを、Sunoの別ボーカル、Vocoflexのプリセット、カラーパレットボイス、それらのミックスにキーボードショートカットで切り替える様子はこちらで。
Sunoのステム分離、RVCとVocoflexによるAIボイスクローン、筆者本人の歌声などを組み合わせたボーカル、Runway Gen-3 Alphaのリップシンク、KLING、ViduのAI動画などを使ったミュージックビデオがこちらです。
オリジナル部分は自分の歌声しかありませんが、それでもDTMを始めた42年前の楽しさはだいぶパワーアップしている気がします。