ニュース

生成AIがプロンプトから音楽・効果音を創造! Stability AIが「Stable Audio」を公開

無料で45秒までの音声を生成、ドラムトラックやバンドサウンドから環境音までカバー

「Stable Audio」

 画像生成AI「Stable Diffusion」などを開発する英Stability AIは9月13日、Webブラウザー上で利用できる音声生成AIツール「Stable Audio」を公開した。

 「Stable Audio」は、AIを用いて音楽や効果音を生成できるツール。テキストでプロンプトを入力することで、イメージした通りの単一・複数楽器で演奏した音楽を生成できるほか、効果音や環境音を生成できる。生成した音声は44.1kHzのステレオでダウンロード可能だ。

 非商用利用のみ45秒までの音声を生成できる無料版と、商用利用可能で90秒まで生成できる商用プロジェクト用Pro版(月額11米ドル)が用意されている。無料版では月間20件まで、Pro版では500件までの音声を生成可能だ。さらに、自由に音声の長さや生成件数をカスタマイズできるEnterprise版も用意されている。

「Stable Audio」のプラン一覧

 同社によると、拡散モデルAIによる音声以外の生成ではサイズが固定された出力を前提としてトレーニングされるが、音声の場合はさまざま長さの出力を要求されるため、従来の方法とは異なるアプローチが必要だったという。「Stable Audio」はこの問題を解決し、音声の内容と長さを指定した生成が可能になっているほか、NVIDIA A100 GPGPUを利用して44.1kHZ・95秒のステレオ音声を1秒未満で生成可能だ。

 トレーニングには、オーディオストックサイト「AudioSparx.com」から提供された商用利用可能な800,000以上の音声と関連付けされたメタデータが使われている。音声データの再生時間は合計で19,500時間を超えるという。

 同社は、今後もモデルアーキテクチャ、データセット、トレーニング手順を継続的に改善し、出力の品質や制御性、推論速度、出力の長さを向上していくという。また、「Stable Audio」に基づくオープンソースモデルや、オーディオ生成モデルをトレーニングできるトレーニングコードを公開する予定もある模様。

 なお現在、「Stable Audio」のサイトはアクセス過多のため、つながりづらい状況が続いている。つながらない場合は後日改めてアクセスするとよいだろう。

「Stable Audio」のサイトはつながりづらい状況が続いている