高性能すぎて本人証明がないと買えないAIボイチェン「Vocoflex」製品版登場。無限声色ボーカルはAI DTMに欠かせない存在に（CloseBox）

テクノロジー AI

2024 Aug 8 10:26

松尾公也

テクノエッジ編集部シニアエディター / コミュニティストラテジスト @mazzo

特集

高性能すぎて本人証明がないと買えないAIボイチェン「Vocoflex」製品版登場。無限声色ボーカルはAI DTMに欠かせない存在に（CloseBox）

3カ月ほどベータテスターをしていた、DreamtonicsのAIボイスチェンジャー「Vocoflex」。その製品版が正式発売されたので、購入しました。

ベータ版でもすごく便利に使っていたのですが、さらに改良されているというので、製品版としてのファーストインプレッションをお届けします。

■ Vocoflex とは

Dreamtonicsはその品質で定評のあるAIベースの歌声合成ソフト「Synthesizer V」の開発メーカー。

Vocoflexは、RVCなどのAIによるボイスチェンジャーをさらに使いやすく高性能に発展させたもので、VSTやAudioUnitsといったプラグインも揃っていてDAWを使うDTMユーザーとも親和性が高いものです。

Synthesizer Vのメーカーが作った、10秒の音声ファイルがあればリアルタイム歌声変換できるAI技術「Vocoflex」はRVCを超える？（CloseBox） | テクノエッジ TechnoEdge

「年末のライブなんですが、今回、とりちゃんにコーラスをやってもらいたいと思っていて、リアルタイムで歌うことってできないですか？」

https://www.techno-edge.net/article/2024/04/17/3198.html続きを読む »

その人の声になりきってリアルタイム歌唱できるAIボイチェン「Vocoflex」を使ってタイムトラベル体験した（CloseBox） | テクノエッジ TechnoEdge

10秒の歌声オーディオデータがあれば、本人そっくりのリアルタイム歌唱ができるという「Vocoflex」。ベータテスターの申し込みをしていたのですが、ついに試用できたので、そのファーストインプレッションをお届けします。

https://www.techno-edge.net/article/2024/04/28/3256.html続きを読む »

気になる価格ですが、3万1900円と、予想よりかなり手に入れやすい価格帯となりました。日本ではAHSからダウンロード販売されています。また、Synthesizer Vとのバンドルセットも用意されています。

■なぜソフトを買うのに本人証明が必要なのか

AIを使った音声変換は、特定の声を再現する歌声合成とは異なり、元になる声さえあれば無限に再現できる半面、悪用されかねないという負の側面もあります。

RVCやDiff-SVCでは、既存の歌手や声優の声を許可なく使って、別の曲を歌わせたりといったことが横行しています。

Diff-SVCの場合には、そのためにソフトウェアの公開が一時停止される事態となりました。

破壊的でヤバいAI歌声合成「Diff-SVC」がGoogle Colabでの公開停止。一部ユーザーがセレブや商用音源を勝手に利用で自主制限（CloseBox） 1枚目の写真・画像 | テクノエッジ TechnoEdge

Google Colabを使って手軽にAIボイスを作成できるNotebookが公開を停止してしまった。その背景には、不心得なユーザーによる行為がある。破壊的でヤバいAI歌声合成「Diff-SVC」がGoogle Colabでの公開停止。一部ユーザーがセレブや商用音源を勝手に利用で自主制限（CloseBox） 1枚目の写真・画像

https://www.techno-edge.net/article/img/2023/01/23/742/4315.html続きを読む »

そういった問題への対策として、Vocoflexは導入時には公的な身分証明書と、本人写真撮影が必要となっています。

パスポート、運転免許証、マイナンバーカードなど、顔写真がある公的身分証明書が必要で、そうした証明書の写真と、スマートフォンで撮影した自分の顔写真を提出。その審査にパスして初めて購入プロセスに移ることができます。

ここまで厳しい本人確認を受けるのは筆者は初めて。こうして確認された本人情報は、生成した音声に含まれた電子透かし（ウォーターマーク）と紐づけられるため、悪用された場合には購入者を特定できるようになっています。

この仕組みが抑止力となり、利用できる権利を持たない音声を使って生成した場合には、その責任を問われることになります。Dreamtonicsは次のように述べています。

私たちは倫理的なAIの使用方法を遵守し、道徳的・法的な一線は決して踏み越えてはならないと考えています。また、アーティスト、俳優、ボーカリスト、ユーザーの皆さまの完全な知識と透明性をもって、クリエイティブな可能性を広げるために「Vocoflex」を使用することを奨励しています。

■製品版では何が変わったか

ベータ版期間中も度重なるバージョンアップが行われ、初期バージョンと比較するとかなり使いやすくなっていたのですが、製品版では更なる改良が加えられていました。

まず、レイテンシー（遅延）が、従来の45msecから35msecへとさらに低減されています。これは非常に大きなポイントで、45msecでも他にはないくらいの低遅延だったのですが、事実上問題のないレベルでのリアルタイムボイチェンが可能となっています。

筆者は自分の歌声をリアルタイムで妻の歌声に変換するライブを年末に予定しているのですが、新バージョンのVocoflexならばそうしたことが問題なくできることになります。

音質も大きく改善されており、高負荷時のノイズが起きにくくなっているようです。

操作面でも改良が施されています。

Vocoflexでは、異なる元音声から生成した音声モデルを複数配置し、それらを切り替えたり中間的な音色にしたりといったことが可能です。その操作は、画面のXY座標でポインタを動かすことによってマニュアル操作できるのですが、これにキーボードショートカットを割り当てることができるのです。

そのショートカットは、MIDIキーボードでも、MacやWindowsマシンのキーボードでも操作可能です。

筆者は、妻の1982年収録の音源と、2012年収録の同一楽曲のボーカルトラックをVocoflexでモデル化して使っていますが、この2種類をミックスしたり、単独で使ったりを、曲調や展開、表現によって瞬時に切り替えることができるようになりました。Vocoflexではこれをカーソルピンと呼んでいます。

画面右下の、Google Mapのピンに似たアイコンをクリックすると、メニューが現れます。

現在のカーソル位置で+ボタンを押すと、その場所が登録されます。

2つの歌声モデルの中間的なものに1、2012年の歌声に2、1982年の歌声に3を割り当てています。

手元のキーボードの数字キーで1、2、3を押すと、リアルタイムで音色を切り替えられるという仕組みです。MIDIコントローラーでも可能なので、フットスイッチで声色を自由に切り替えることも可能。

カーソルピンはライブ以外でも便利です。筆者はLogic Pro 11とVocoflexを組み合わせて使っているのですが、そこで使う声色の選択時に、ボーカルトラックにVocoflexプラグインをインサートして、歌ったり再生したりしている最中に音声モデルを切り替えながら最適解を探すといったことができます。

■ 豊富なプリセットボイスもあるので無限の声色が手に入る

自分が権利を持って使えるボーカルデータがないという人向けには、カラーコードにアサインされたプリセット音色をさらにXY方向にフォルマント（男声、女声）、トーン（明るい、暗い）を動かすことでバリエーションを持たせることができます。自分の声をそれらの声色とミックスすると、新しい歌声を作ることも可能です。

さらに、プリセットボイスも用意されています。Passionate Male J-Pop（情熱的な男声J-Pop）といったわかりやすいネーミングのプリセットボイスが40種類。これらはそれぞれ複数のミックスが可能なので、事実上、無限の声色が作れるといっていいでしょう。

「好きな曲のボーカルが気に入ったから、そのボーカルをVocoflexに学習させて、他の曲でも使えるようにする」といったことも可能です。他の人が権利を持っている曲ではやってはいけないことですが、可能なケースがあります。それは、SunoやUdioなどのボーカル曲。

こうしたAI作曲サービスの場合、気に入ったボーカルが見つかったとしても、その歌声は一期一会。次に出会えるのはいつになるかわかりません。あのボーカルにぴったりの曲なのに、もう彼や彼女に歌ってもらうことはできないんだよなあ……なんてこともあります。

そんな時、Vocoflexは便利。特に、最近ではSunoもUdioもステム分離機能を備えており、ボーカルだけを分離して、Vocoflexに学習させ、その歌声を保存することができるのです。

そして、その歌声にプリセットやカラーコードボイスをミックスさせてさらにお気に入りの声にすることも可能。声をカラーパレットのように自由自在に作れる時代が来たのです。

これだけの潜在能力があるソフトなので、本人証明がないと買うことすらできないというのはわかる気がします。

（▲Sunoのボーカル、Vocoflexのプリセット、カラーパレットを瞬時に切り替えられる）

Sunoのボーカルを、Sunoの別ボーカル、Vocoflexのプリセット、カラーパレットボイス、それらのミックスにキーボードショートカットで切り替える様子はこちらで。

Sunoのステム分離、RVCとVocoflexによるAIボイスクローン、筆者本人の歌声などを組み合わせたボーカル、Runway Gen-3 Alphaのリップシンク、KLING、ViduのAI動画などを使ったミュージックビデオがこちらです。

オリジナル部分は自分の歌声しかありませんが、それでもDTMを始めた42年前の楽しさはだいぶパワーアップしている気がします。

《松尾公也》

Amazon売れ筋ランキング

タイムセール

>> もっと見る

イヤホン

>> もっと見る

オーディオ

>> もっと見る

デスクトップPC

>> もっと見る

松尾公也

テクノエッジ編集部シニアエディター / コミュニティストラテジスト @mazzo

ショート動画

特集

BECOME A MEMBER

『テクノエッジアルファ』会員募集中

最新テック・ガジェット情報コミュニティ『テクノエッジアルファ』を開設しました。会員専用Discrodサーバ参加権やイベント招待、会員限定コンテンツなど特典多数です。

高性能すぎて本人証明がないと買えないAIボイチェン「Vocoflex」製品版登場。無限声色ボーカルはAI DTMに欠かせない存在に（CloseBox）

松尾公也

特集

■ Vocoflex とは

■なぜソフトを買うのに本人証明が必要なのか

■製品版では何が変わったか

■ 豊富なプリセットボイスもあるので無限の声色が手に入る

Amazon売れ筋ランキング

松尾公也

ショート動画

特集

『テクノエッジアルファ』会員募集中

グラビアカメラマンが教える「生成AIグラビア実践ワークショップ」【アーカイブ配信あります】

どこにもないディープな会話が楽しめる「ハカセとアックンのスマホ沼」

自作PCのノウハウをわかりやすく解説するオンラインワークショップ「AI時代の自作PCワークショップ」【アーカイブ配信あります】

さまざまなテーマでオフラインのイベントを開催。ディスコードでコミュニケーションもできます

PS5 Proクラス性能目指す『OS代込みで12万円のゲーミング自作PC』はどの程度まで行けるか。【AI時代の自作PCワークショップ】

AI活用ゲーム開発ハッカソン、賞金100万円を獲得した作品は？QwenのAlibaba Cloud主催『Tokyo Game Jam』イベントリポート

生成AIグラビアギャラリー

HUAWEI WATCH FIT 4 Pro 実機レビュー。サファイアとチタン合金の高級感・バッテリー・健康管理、すべてがワンランク上へ

【LINE公式アカウントはじめました】最新ガジェットとテック情報をお届けします。友だち募集中。

ガジェット愛好家が知りたい最新情報を発信。テクノエッジYouTubeチャンネルはこちら

テクノエッジへのご寄付のお願い

西川善司のバビンチョなテクノコラム（西川善司）

生成AIグラビアをグラビアカメラマンが作るとどうなる？（西川和久）

人知れず消えていったマイナーCPUを語ろう（大原雄介）

Google Tales（佐藤由紀子）

てくのじ何でも実験室（宮里圭介）

松尾公也

特集

■ Vocoflex とは

■なぜソフトを買うのに本人証明が必要なのか

■製品版では何が変わったか

■ 豊富なプリセットボイスもあるので無限の声色が手に入る

Amazon売れ筋ランキング

SHARE THE STORY この記事をみんなにシェア

松尾公也

ショート動画

特集

『テクノエッジ アルファ』会員募集中

『テクノエッジアルファ』会員募集中