NTT西日本は、音声AI事業の「VOICENCE(ボイセンス)」を発表しました。
NTTが持つ音声技術やトラスト技術を生かし、声の持ち主を守りながら、音声AIによる事業機会を拡大していくという取り組み。音声AIにはNTTの持つ音声処理技術を活用。その音声AIで生み出したコンテンツを、ブロックチェーンなどを用いて真正性証明をつけ、流通させていくのが狙いです。

▲NTT西日本が新事業として始める音声AI事業のVOICENCE

▲トラスト技術と音声処理技術を掛け合わせたものになる
当初は声優や俳優、芸人といったコンテンツを生み出す立場の人や事務所と共同でコンテンツを拡大していく方針。そのIP(知的財産)を守るために、声の真正性証明をVOICENCEのプラットフォーム上で付与するという流れです。声色そのものには著作権や肖像権などに相当するものがなく、無断で生成された音声は社会問題にもなり始めています。

▲ビジネスモデル。声優や俳優などと契約を結び、その音声AIを生かしてクライアントに生成した声を販売していくモデルを想定している
これに対し、VOICENCEで作成し、真正性証明を付与した場合、その人の音声AIで作成したコンテンツを、どのような方法で作成し、どういった利用許諾を与えているかということをトレースできます。これだけで無断利用を完全に防ぐことはできないものの、少なくとも音声を聞く受け手側が本物かどうかを判断する手段にはなるというわけです。

▲付与された真正性証明の情報。声の元や仕様地域、目的、上限などを、細かく指定できる
写真や画像編集の世界では「C2PA」という来歴証明があり、スマホではグーグルのPixel 10シリーズが対応しています。画像内に埋め込まれたデータで、生成AIによる編集が加えられたことが分かる仕組みです。簡単に言えば、VOICENCEはその音声版と言えるかもしれません。ただし、C2PAのように一般クリエイターに開放されるのはまだまだ先の話。当初は上記のように、NTT西日本と演者側に閉じたプラットフォームになります。
もう1つが、音声そのものを生み出すAIで、これも合わせて提供されます。NTTの独自技術になるが、音声印象制御や多言語合成。音声印象制御は、声の印象を示す11個の「形容詞対」のパラメーターを動かしていくことで、多様な声のデザインを可能にしているといいます。

▲声を11の要素に分解して、パラメーターを調整していくことで印象を制御するNTTの技術を活用
これを使って生成された音声が、以下に掲載したもの。発表会中にキズナアイが読み上げた文章で、VOICENCEのNTT音声印象制御技術が使われています。最初がベーシック、次がハイテンション、最後がローテンションといった形で感情表現がしっかりできていることが分かります。
このキズナアイのしゃべり声は、声優でボイスモデルを務める春日望さんの声を1時間程度学習させたもの。音声印象制御技術によって、さまざまなシーンに適用できることが期待できます。
NTTの技術として、2つ目に採用されているのが多言語合成。端的に言えば、学習させた音声AIに外国語をしゃべらせる技術で、すでに日本語に加え、英語、中国語、韓国語、フランス語、スペイン語の6か国語に対応しています。海外に打って出たいときや、インバウンド対応のための音声ガイドを作成するときなどに、役立ちそうです。

▲多言語対応の「クロスリンガル技術」も売りの1つ。この技術は、大阪・関西万博でも利用された
実際、この技術を発表会のデモで試すことができました。試せたのは、後者の多言語合成。キズナアイに使われた1時間たっぷりと学習させたAIと違い、筆者がワンフレーズ読み上げただけの簡易的なAIモデルのため、声が本当に似ているかと言われると「うーん……」と思うところはありますが、ワンクリックで外国語が自動的に生成されています。
その様子は、以下の動画で。日本語で音声をワンフレーズだけ吹き込み、数十秒学習したあと、すぐに入力した文字を読み上げられるようになりました。英語はもちろん、筆者がまったくしゃべることができない中国語や韓国語での発声もできました。その様子は、以下の動画でご覧ください。
ワンフレーズで学習した筆者の音声AIはさておき、発表会中に登壇(?)したキズナアイの声は、かなりホンモノ感がありました。AIと言われなければ、本当に声優さんがしゃべっていると思っていたかもしれません。
自分の声を学習させれば、YouTubeなどのコンテンツももっと簡単に作れるのに……と思うところはありました。それだけに、B2Bビジネスに閉じているのは少々残念。コンシューマーに提供しつつ、かつ真正性証明もつけられるとなればそれなりにニーズはありそうです。
NTT西日本では、VOICENCEを将来的に1000億円規模の売上げを生むビジネスに育てていく目標を掲げており、そのためにカンパニー制を採用するなど、組織構造も変えています。音声通話の減少や、固定回線需要の頭打ちなどで業績が厳しくなっている中、VOICENCEはそれを打破するための新規事業。NTTの得意とする音声を生かした事業だけに、今後の拡大にも期待したいところです。

▲4年後の29年度には100億円、その先には1000億円を目指す








