ニュース
Stability AIが音声生成モデル「Stable Audio 2.5」を発表 ~エンタープライズ向け
2秒未満で最大3分の楽曲を生成、既存音声データの続きを生成する機能も搭載
2025年9月11日 15:40
英Stability AIは9月10日(現地時間)、大規模エンタープライズ向け音声制作のために開発された初の音声生成モデル「Stable Audio 2.5」を発表した。現在、StableAudio.comから試用できるほか、Stability AI APIや「ComfyUI」などから利用可能。
「Stable Audio 2.5」は、敵対的相対論的対比学習(ARC)手法を追加学習に用いることで高速化を実現しており、GPUを使用した環境であれば2秒未満で最大3分の楽曲を生成できる。生成される楽曲の音楽的な構造も改良されており、イントロ、展開部、アウトロといった複数パートからなる楽曲を生成可能。さらに、プロンプトに対してより忠実な楽曲が生成できるという。
また、テキストからの楽曲生成に加え、既存の音声データを入力して指定した位置から後をそこまでの音声の流れに合わせて生成することも可能。なお、アップロードするコンテンツは著作権侵害がないことが義務付けられている。
加えて、これまでの「Stable Audio」と同様に「Stable Audio 2.5」は完全にライセンス取得済みのデータセットで学習されており、商用利用でもリスクなく利用可能。これらの特徴から同社は、プロフェッショナルなクリエイティブチームがあらゆる制作物に最適なサウンドを制作可能にしたとしている。