ニュース
Stability AI、無料で起承転結のある最大3分の音楽を生成可能な「Stable Audio 2.0」を公開
テキストだけでなくアップロードしたオーディオから音楽を生成可能に
2024年4月4日 00:11
画像生成AI「Stable Diffusion」などを開発する英Stability AIは4月3日、Webブラウザー上で利用できる音声生成AIツール「Stable Audio」を「Stable Audio 2.0」に更新した。間もなく「Stable Audio API」でも利用できるようになるという。
「Stable Audio」は、AIを用いて音楽や効果音を生成できるツール。テキストでプロンプトを入力することで、イメージした通りの単一・複数楽器で演奏した音楽を生成できるほか、効果音や環境音を生成できる。生成した音声は44.1kHzのステレオでダウンロード可能だ。無料で月間20トラックの生成が可能で、生成したトラックの商用も可能な有償版は月額11.99米ドルで500トラックまで生成可能な「Pro」ライセンスなどが用意されている。
「Stable Audio 2.0」では、生成できる楽曲の長さが最大3分に延長されたほか、イントロや展開部、アウトロなどの構造を備え、ステレオのサウンドエフェクトも含まれた作曲が可能。さらに、テキストのプロンプトからだけでなく、アップロードしたオーディオから音楽を生成できるようになった。
加えて、効果音の生成も改良されたほか、生成、またはすでにアップロードした音楽をもとに特定のスタイルやトーンに合わせて再生成することも可能だという。
技術的には、システムの全コンポーネントを調節し、パフォーマンスが向上。
ランダムなノイズから構造化されたデータを精製するDiffusion Transformer(DiT)に、以前使用されていた「U-Net」ではなく、「Stable Diffusion 3」と同様のものが使われるようになり、長いシーケンスのデータ操作が改善された。これらの結果大規模な構造を認識して再現できるモデルとなっているという。