Suno v5以上の品質、商用利用できる日本語対応ローカル音楽生成AI「ACE-Step 1.5 XL」が無料公開（生成AIクローズアップ）

1週間の気になる生成AI技術・研究をいくつかピックアップして解説する連載「生成AIウィークリー」から、特に興味深いAI技術や研究にスポットライトを当てる生成AIクローズアップ。

今回は、2026年4月2日にリリースされた、オープンソース音楽生成モデル「ACE-Step」の最新かつ最上位バージョンとなる「ACE-Step 1.5 XL」を取り上げます。GitHubリポジトリはこちら。

モデルのバリエーションとして、用途や環境に合わせて「xl-base」「xl-sft」「xl-turbo」の3種類がMITライセンスで提供されています。

ベンチマーク結果によると、XLモデルは最高峰の商用モデルであるSuno v5をすべての評価指標において上回るトップスコアを示しています。

各評価指標は、音響的なクリアさ（AudioBox）、音楽としての自然さや完成度（SongEval）、指示したジャンルや雰囲気の再現性（Style Align）、そして指定した歌詞の正確な歌唱（Lyric Align）を示しています。

▲各音楽生成AIのベンチマーク結果

技術面の特徴は、40億（4B）パラメータのDiT（Diffusion Transformer）デコーダーを新たに搭載したことです。従来の2Bモデル（重み約4.7GB）から約9GBへと大幅にスケールアップしており、これにより従来をさらに上回る高品質なオーディオ生成が可能になりました。

動作環境についてはモデルの大型化に伴い要求スペックが上がっており、CPUオフロードや量子化を活用する場合でも最低12GBのVRAMが必要です。オフロードなしで快適に動作させるためには、20GB以上のVRAMを備えたGPU環境が推奨されています。

前モデル「ACE-Step」では、10秒の短いループから最長10分に及ぶ楽曲生成、ボーカルトラックからのBGM自動生成、カバー作成など、多彩なコントロール機能が利用できます。50以上の言語の歌詞に対応しており、日本語もその中に含まれています。A100環境ではフル楽曲を2秒未満、RTX 3090でも10秒未満で生成できるとしています。

▲音楽生成AIの生成スピードの比較

Suno v5以上の品質、商用利用できる日本語対応ローカル音楽生成AI「ACE-Step 1.5 XL」が無料公開（生成AIクローズアップ）

山下（Seamless）

特集

山下（Seamless）

ショート動画

特集

『テクノエッジアルファ』会員募集中

グラビアカメラマンが教える「生成AIグラビア実践ワークショップ」【アーカイブ配信あります】

どこにもないディープな会話が楽しめる「ハカセとアックンのスマホ沼」

自作PCのノウハウをわかりやすく解説するオンラインワークショップ「AI時代の自作PCワークショップ」【アーカイブ配信あります】

さまざまなテーマでオフラインのイベントを開催。ディスコードでコミュニケーションもできます

PS5 Proクラス性能目指す『OS代込みで12万円のゲーミング自作PC』はどの程度まで行けるか。【AI時代の自作PCワークショップ】

Amazonプライム感謝祭で高性能ロボット掃除機MOVA P50 Ultraが半額＋さらに5％オフ。水拭きモップ自動洗浄・乾燥まで対応ハイエンドモデル

生成AIグラビアギャラリー

「AIを使う人材が欲しい」企業と「AIを使いこなせない」現場——ギャップを埋める方法とは

テクノエッジアルファ会員登録はこちら。コミュニティ参加ガイド

CORSAIR K65 PLUS WIRELESS・M75レビュー Macと映える静音75%メカニカルゲーミングキーボード・マウスで勝率も生産性も向上

【LINE公式アカウントはじめました】最新ガジェットとテック情報をお届けします。友だち募集中。

西川善司のバビンチョなテクノコラム（西川善司）

生成AIグラビアをグラビアカメラマンが作るとどうなる？（西川和久）

人知れず消えていったマイナーCPUを語ろう（大原雄介）

Google Tales（佐藤由紀子）

てくのじ何でも実験室（宮里圭介）

山下（Seamless）

特集

SHARE THE STORY この記事をみんなにシェア

山下（Seamless）

ショート動画

特集

『テクノエッジ アルファ』会員募集中

『テクノエッジアルファ』会員募集中