YuEやDiffRhythmなど、オープンソース版も充実してきた楽曲生成AIですが、再び中国から新しいソフト「ACE-Step」が公開されました。ACE-Stepは、英語、日本語を含む19言語の歌詞に対応し、歌詞と音楽タグからの楽曲生成が可能。
特徴は、YuEのようなLLMベース技術とDiffRhythmのDiffusionモデルのいいとこどりをし、歌詞や楽曲構成の一貫性を維持しながらも高速生成を可能にしたことだと開発元は述べています。
プラットフォームはWindowsだけでなく、MacやLinuxでも利用可能。


筆者はRTX 4090を搭載したWindowsマシン(Core i7)にインストールして試しました。自分の環境だとvenvではうまくいかず、condaを使用することで稼働。

初回は巨大なウェイトをダウンロードするので5分以上かかりましたが、その後は1曲まるごとの生成に12~14秒くらい。ローカル処理にしているのにSuno並に高速です。
Macでの動作も可能としていますが、筆者の環境ではGradioが動くところまではいきましたが動作に難あり(生成したものがビープ音になってしまう)。修正を期待したいところ。

曲の長さは240秒まで指定できます。生成された曲はFLACフォーマットの48000Hz。バッキングはまだ調整が必要な感じですが、ボーカルはかなりクリア。
それもそのはず。ACE-Step開発元の1社は、AIベースの歌声合成ソフトAce Studioも作っている中国企業、TIMEDOMAIN(北京時域科技)なのです。以前、DTMステーションでボーカルシンセの新顔として紹介されていた記憶があります。

Ace StudioはVOCALOID、Synthesizer V、CeVIOなどに近い流れの歌声合成ソフトで、ボイスチェンジャーやボイスクローンの機能も提供。
そうした製品開発・販売で実績のある企業がなぜ新しいAI作曲ソフトのオープンソース(オープンウェイト)に踏み切ったわけで、ローカルPCで生成できる、日本語で歌えるAI作曲ソフトがYuEに続いて登場したのは非常に喜ばしいです。
もう1社のStepFun(階跃星辰)は中国のAIスタートアップで、LLMや動画生成モデルの開発でも実績を持っています。
両社は単に歌詞から楽曲を作るソフトを目指しているわけではなく、音楽生成のためのファウンデーションモデルを作るという大きな目的があり、音楽におけるStable Diffusionのような役割(Stable Diffusion Moment)を果たしたいとしています。
現行バージョンでもRetake(別シードによるバリエーション生成)、Repaint(部分修正)、Edit(音楽スタイルや歌詞の変更、メロディーの維持・変更)、Extend(前方向、後方向のどちらも選べる)といった豊富な編集オプションを持っています。
LoRAによる楽曲学習も可能で、今後はラップ専用LoRA、ボーカル→バッキング生成などの開発も予定しています。
LoRAが作成可能ということは、自分が権利を持つ楽曲を学習し、「自分風楽曲」を無限に生成できるわけです。
ミュージシャンにとっては新しい制作方法が生まれたといっていいのではないでしょうか。

実際に生成してみると、日本語の読みはやはり怪しいし、タグを反映したりしなかったり、リズムキープされていない場合があるといった問題点もありますが、スタートポイントとしてはよくできていると思います。
自分のPCで生成した曲を動画にまとめてみました。ACE-Step自体に動画や歌詞を生成する機能はありません。英語曲のクォリティはかなり高く、1年前あたりのSunoやUdioレベルと言っていいと思います。
自分のマシンにインストールする前に試したいという人は、Hugging Face Spaceにデモがあるので、そちらで試すことができます。
