1週間の気になる生成AI技術・研究をいくつかピックアップして解説する連載「生成AIウィークリー」から、特に興味深いAI技術や研究にスポットライトを当てる生成AIクローズアップ。
今回は、2026年4月2日にリリースされた、オープンソース音楽生成モデル「ACE-Step」の最新かつ最上位バージョンとなる「ACE-Step 1.5 XL」を取り上げます。GitHubリポジトリはこちら。

モデルのバリエーションとして、用途や環境に合わせて「xl-base」「xl-sft」「xl-turbo」の3種類がMITライセンスで提供されています。
ベンチマーク結果によると、XLモデルは最高峰の商用モデルであるSuno v5をすべての評価指標において上回るトップスコアを示しています。
各評価指標は、音響的なクリアさ(AudioBox)、音楽としての自然さや完成度(SongEval)、指示したジャンルや雰囲気の再現性(Style Align)、そして指定した歌詞の正確な歌唱(Lyric Align)を示しています。

▲各音楽生成AIのベンチマーク結果
技術面の特徴は、40億(4B)パラメータのDiT(Diffusion Transformer)デコーダーを新たに搭載したことです。従来の2Bモデル(重み約4.7GB)から約9GBへと大幅にスケールアップしており、これにより従来をさらに上回る高品質なオーディオ生成が可能になりました。
動作環境についてはモデルの大型化に伴い要求スペックが上がっており、CPUオフロードや量子化を活用する場合でも最低12GBのVRAMが必要です。オフロードなしで快適に動作させるためには、20GB以上のVRAMを備えたGPU環境が推奨されています。
前モデル「ACE-Step」では、10秒の短いループから最長10分に及ぶ楽曲生成、ボーカルトラックからのBGM自動生成、カバー作成など、多彩なコントロール機能が利用できます。50以上の言語の歌詞に対応しており、日本語もその中に含まれています。A100環境ではフル楽曲を2秒未満、RTX 3090でも10秒未満で生成できるとしています。

▲音楽生成AIの生成スピードの比較




