ニュース

「Stable Diffusion」がメジャーバージョンアップ ~画像の深度情報を推測可能に

学習モデルを刷新、超解像アップスケール機能も

「Stable Diffusion 2.0」の出力画像(astronaut_feeding_chickens)

 英Stability AIは、画像生成AI「Stable Diffusion」の最新版となる「Stable Diffusion 2.0」を11月24日に公開した。従来版となる「Stable Diffusion V1」から、新たな機能が複数追加されている。

 テキストから画像を生成する際に使われる学習モデルは、Stability AIのサポートのもとでLAIONが開発した新たなテキストエンコーダ「OpenCLIP」を使用して学習させたものになった。出力解像度は512×512ピクセルに加え、768×768ピクセルも標準で生成できる。

768×768ピクセルで出力された画像の例

 さらに超解像アップスケールに対応したモデルも同梱。テキストから画像生成する方法と組み合わせることで、2,048×2,048ピクセルやそれ以上の解像度の画像生成が可能になる。

128×128ピクセルの画像を512×512ピクセルにアップスケールした例

 画像から画像を生成する機能では、新たに「Depth2img」というモデルが追加された。入力画像の深度を推定する機能を持っており、テキストと深度情報の両方を使って新たな画像を生成できる。

「Depth2img」で左の画像を入力し、右の複数の画像を生成した例
一貫性を保った画像の生成が可能になる

 画像の一部をテキストの指示で修正する機能は、「Stable Diffusion 2.0」をベースにアップデートされた。よりインテリジェントかつ迅速に処理が可能としている。

画像の一部を修正した例

 これらの「Stable Diffusion 2.0」に対応するモデルは、数日中にStability AI API PlatformとDreamStudioにもリリースされる予定。これに合わせて、開発者やパートナー向けに価格の更新を含む情報を発信するとしている。