AIフェイクボイスで対面会話する方法。本人vs.本人AIボイチェンのカオス(CloseBox)

テクノロジー AI
松尾公也

テクノエッジ編集部 シニアエディター / コミュニティストラテジスト @mazzo

特集

AIフェイクボイスで対面会話する方法。本人vs.本人AIボイチェンのカオス(CloseBox)
  • AIフェイクボイスで対面会話する方法。本人vs.本人AIボイチェンのカオス(CloseBox)
  • AIフェイクボイスで対面会話する方法。本人vs.本人AIボイチェンのカオス(CloseBox)
  • AIフェイクボイスで対面会話する方法。本人vs.本人AIボイチェンのカオス(CloseBox)

VC Clientを使い、AIリアルタイムボイチェンの実験をこのところ進めていましたが、ようやく対面でできる目処が立ってきました。




RVCという高精度のAI声質変換技術を使い、元の音声に酷似した声質に変換するモデルを作成。それをリアルタイムで推定するVC Clientを使って何度か実験してきました。これまでは、音声チャットサービスを使い、リモートでやり取りをしていましたが、ついに外に出るときが。

ボイスチェンジャーを対面の状態で行うことには大きな課題があります。

それは、変換前音声の音漏れ。リモートであれば、自分の声は自分だけに聞こえるように、マイクからの声はボイスチェンジャーアプリまたはデバイスだけに送り、リモートの相手には変換後の音だけが届くようにすれば済みます。

リアルでのボイチェンでは、人がいる状態で変換元の声を出して、それをマイクで拾い、さらに変換後の音声をスピーカーから出すことになります。そうすると、変換前の音が聞こえてしまうだけでなく、変換後の音を再びマイクで拾ってしまい、無限ループに陥ることになります。

そうならないためには、自分が発した声を消音し、かつ、声をきちんと拾ってボイスチェンジャーに送る必要があります。また、スピーカーから出た音がマイクに乗らないようにしないといけません。

そういうデバイスはないものか。

そこで、Ittousai編集長から長期で借りていたShiftallの「mutalk」(19,900円)を使ってみました。mutalkは、「ヘルムホルツ共鳴器の原理を利用することで、小型にもかかわらず大幅な消音効果を実現」「自分の声を周りに聞こえにくくし、同時に周囲の騒音がマイクに入りづらくする、防音Bluetoothマイク」です。

▲mutalkでは平均-20dBの消音効果があるという

ただし、今回はこのBluetoothマイクの部分は使いません。というのも、BluetoothマイクだとVC Clientでの動作が不安定になってしまうため、そして、遅延を少しでも改善するためです。

mutalkは、自分の声の消音と、外部からマイクに声が入らないようにするためだけに使います。

このために、VC Clientを動かすMacBook Proにつなげられるピンマイクを購入しました。

mutalkの中は、吸湿クッションの奥にマイクセンサーが入っているのですが、クッションとマウスパッド(口と接触するカバー)を外して、そこにピンマイクを置いて、再びクッションとカバーを装着。これで使います。

▲本体(左)とクッション(中央)の間にマイクを挟み込む

最終的に使ったのは、エレコム製のUSB-C接続マイクだったのですが、実はこの前にいくつか別のものを試しています。ですが、うまくいきませんでした。

その理由は、ゲインが大きすぎて音が割れてしまっているせいで、変換された音が、元の音素を反映しない、モゴモゴした声になったからです。

ということは、ゲインが小さいものを選ぶしかない。

そこで、最初はユーザーレビューがあまりに悪いので除外していた、エレコム製に目をつけました。なぜなら、多数のユーザーから「音量小さすぎ」「本当に音が小さい」といコメントが寄せられていたからです。


この評価はまさに正しく、実際に装着してみると、たしかにゲインが低いおかげで、入力した音が割れずに済んでいます。クリップも風防も外せるので、小型化もできます。これなら実用になりそうです。「使いものにならない」と言われながらも製品を出し続けているエレコムさんは、こうした用途を想定していたのでしょうか。

というわけで準備も整い、テクノエッジ編集部のある技研ベースに行って試してみました。金曜日と土曜日の夜には「技研バー」として営業しているので、その時間帯です。

最初は、前回作成したドリキンの音声で遊んでいたのですが、最近ではVRChat方面での活躍で知られるまつゆう*さんが、「わたし、RVCの声持ってるよ」と言い出しました。

Shiftallの岩佐琢磨社長の提案で、まつゆう*さんが2時間かけてITAコーパスを読み上げ、制作したRVCのAIモデルがあるというので、それを転送してもらいました。

.pthの拡張子が付いたファイルをVC Clientに読み込み、スタートボタンを押すと、彼女の声になります。

これは、本人にやってもらいましょう、ということで、本人が本人になりすます、というのをやってもらいました。その様子はYouTube動画でどうぞ。

コナンくんの蝶ネクタイ変声器のように、人知れずなりすますことはできませんが、リアルの場で楽しく遊ぶようなレベルならできるというのがわかりました。

岩佐社長にはぜひmutalkの消音機能を強化したバージョン(Bluetoothなし)を開発していただきたいと思います。


VRChatガイドブック~ゼロからはじめるメタバース
¥1,824
(価格・在庫状況は記事公開時点のものです)
《松尾公也》
松尾公也

テクノエッジ編集部 シニアエディター / コミュニティストラテジスト @mazzo

特集

BECOME A MEMBER

テクノエッジ友の会に登録しませんか?

今週の記事をまとめてチェックできるニュースレターを配信中。会員限定の独自コンテンツのほか、イベント案内なども優先的にお届けします。