ニュース

AIがリアルタイムでテキストから画像を生成する「SDXL Turbo」が発表

画質を犠牲にすることなく、最先端のマルチステップモデルを凌駕する性能を発揮

 画像生成AI「Stable Diffusion」で知られる英Stability AIは11月29日(日本時間)、リアルタイムテキスト画像生成モデル「SDXL Turbo」を発表した。「SDXL 1.0」の基盤の上に「敵対的拡散蒸留」と呼ばれる新しい蒸留技術を実装した新しいテキスト画像合成モードで、高いサンプリング忠実度を維持しながらワンステップかつリアルタイムでテキストから画像への出力を生成できるという。

 「敵対的拡散蒸留」(Adversarial Diffusion Distillation:ADD)とは、高い画像品質を維持しつつ、大規模な基礎画像拡散モデルをわずか1~4ステップで効率的にサンプリングする新しいトレーニングアプローチ。スコア蒸留を用いて、大規模な画像拡散モデルを教師信号として活用し、敵対的損失と組み合わせることで、1~2ステップのサンプリングという低ステップ領域でも高い画像忠実度を確保するという。

 つまり、シングルステップで画像を出力できる従来の「GAN」(Generative Adversarial Networks)の利点はそのまま、他の蒸留手法でよく見られるアーチファクト(ノイズ)やぼやけを回避可能。複数の異なるモデル(StyleGAN-T++、OpenMUSE、IF-XL、SDXL、LCM-XL)と比較した実験でも、プロンプトにより忠実で、少ないステップ数でより高画質であるという結果が得られたという。「SDXL Turbo」は画質を犠牲にすることなく、最先端のマルチステップモデルを凌駕していることがわかる。推論の速度も大幅に向上しているとのこと。

複数の異なるモデル(StyleGAN-T++、OpenMUSE、IF-XL、SDXL、LCM-XL)と比較した実験

 「SDXL Turbo」は現在、同社の画像編集プラットフォーム「Clipdrop」でベータ提供中。Webブラウザーさえあれば、無料で試すことができる。

「Clipdrop」でベータ提供中の「SDXL Turbo」