ニュース
Stability AI、「Stable Audio Open」を公開 ~最大47秒のオーディオ素材をテキストから生成
オープンソースなので自分の演奏をもとに微調整も可能
2024年6月6日 08:37
米Stability AIは6月5日(現地時間)、テキストからオーディオを生成するオープンソースのAIモデル「Stable Audio Open」を発表した。最大47秒のサンプルとサウンドエフェクトを生成可能で、ドラムビートやリフ、アンビエントサウンド、フォーリーサウンド、プロダクションエレメントなどを作成できる。
「Stable Audio Open」は、テキストプロンプトから短いオーディオサンプルを生成することに特化したモデル。すでに同社が提供している「Stable Audio 2.0」との違いは、フルトラックの楽曲を生成するのではなく、サウンドデザイナーやミュージシャンが音作りに用いる素材を作り出す点だ。部分的に生成AIの手を借りたいが、楽曲全体の構成までは任せたくないといった場合に用いるとよいだろう。世界観にフィットした音声素材を求めるゲーム開発者にも役立つかもしれない。
「Stable Audio Open」はオープンソースなので、ユーザーが独自のカスタムオーディオデータをもとにモデルを微調整できる。たとえばドラマーが自分の演奏を録音したサンプルをもとに、テキストで指定したイメージで新しいビートをAIに生成してもらうといったことが可能だ。
「Stable Audio Open 1.0」は現在、AI/MLの共有コミュニティ「Hugging Face」から利用可能。ライセンスは「Stable AI Non-Commertioal Research Community License」。