ニュース

「Stable Diffusion 3 Medium」がついに解禁、一般的なGPUでも効率よく動作する2Bモデル

フォトリアリズムを実現、NVIDIAとの提携によりパフォーマンス50%向上

画像生成モデル「Stable Diffusion 3 Medium」がリリース

 英Stability AIは6月12日(現地時間)、画像生成モデル「Stable Diffusion 3 Medium」をリリースした。現在、オープンな非商用ライセンスおよび低コストのクリエイターライセンスの下で利用可能。APIも提供されており、アプリは「Hugging Face」よりダウンロードするか、「Stable Assistant」や「Stable Artisan」等からも利用できる。

 「Stable Diffusion 3 Medium」は、同社のフラッグシップ画像生成(text-to-image)AI「Stable Diffusion 3」シリーズの20億パラメーターモデル。サイズが小さいため、個人向けシステムや企業向けGPUで動作させるのに最適なAIモデルとなっている。主な特徴は下記の通り。

  • 全体的な品質とフォトリアリズム
    ディテール、カラー、ライティングに優れ、フォトリアリスティックな出力と、柔軟なスタイルでの高品質な出力を可能にする。16チャンネルVAEなどの工夫により、手や顔のリアルさなど、他機種にありがちな落とし穴にも対応
  • プロンプトの理解
    空間的推論、構成要素、アクション、スタイルを含む、長く複雑なプロンプトを理解する。3つのテキストエンコーダーをすべて、または組み合わせて使用することで、パフォーマンスと効率をトレードオフすることができる
  • テキスト生成
    「Diffusion Transformer architecture」により、スペル、カーニング、文字組み、スペーシングのミスを低減し、これまでにないテキスト品質を実現する
  • リソース効率
    低いVRAMフットプリントにより、標準的なコンシューマー向けGPUでパフォーマンスを低下させることなく実行することができる
  • ファインチューニング
    少量のデータセットから微妙なディテールを理解することができ、カスタマイズに最適
よりフォトリアルな画像を出力できるのが特徴

 また、NVIDIAとのコラボレーションにより、「NVIDIA RTX GPU」および「TensorRT」を活用することで、「Stable Diffusion 3 Medium」を含むすべての「Stable Diffusion」モデルのパフォーマンスを強化。「TensorRT」で最適化されたバージョンでは、パフォーマンスが50%向上するという。

 なお、「Stable Diffusion 3 Medium」は、Stability Non-Commercial Research Community Licenseの下でオープンリリースされている。大規模な商用利用を希望する場合は、Stability AIに問い合わせを行ない、エンタープライズライセンスを取得する必要がある。

 同社では、ユーザーのフィードバックをもとに「Stable Diffusion 3 Medium」を継続的に改善、機能を拡張し、パフォーマンスを向上させる予定。Stable Diffusion 3 Mediumを「AI生成アートにおける創造性の新たな基準を設定し、プロと趣味利用の方の双方に不可欠なツールにすること」を目標としているとのこと。