ニュース

「Stable Diffusion 3 Medium」がついに解禁、一般的なGPUでも効率よく動作する2Bモデル

フォトリアリズムを実現、NVIDIAとの提携によりパフォーマンス50％向上

石山裕規

2024年6月13日 10:01

画像生成モデル「Stable Diffusion 3 Medium」がリリース

窓の杜から
ダウンロード

　英Stability AIは6月12日（現地時間）、画像生成モデル「Stable Diffusion 3 Medium」をリリースした。現在、オープンな非商用ライセンスおよび低コストのクリエイターライセンスの下で利用可能。APIも提供されており、アプリは「Hugging Face」よりダウンロードするか、「Stable Assistant」や「Stable Artisan」等からも利用できる。

　「Stable Diffusion 3 Medium」は、同社のフラッグシップ画像生成（text-to-image）AI「Stable Diffusion 3」シリーズの20億パラメーターモデル。サイズが小さいため、個人向けシステムや企業向けGPUで動作させるのに最適なAIモデルとなっている。主な特徴は下記の通り。

全体的な品質とフォトリアリズム
ディテール、カラー、ライティングに優れ、フォトリアリスティックな出力と、柔軟なスタイルでの高品質な出力を可能にする。16チャンネルVAEなどの工夫により、手や顔のリアルさなど、他機種にありがちな落とし穴にも対応
プロンプトの理解
空間的推論、構成要素、アクション、スタイルを含む、長く複雑なプロンプトを理解する。3つのテキストエンコーダーをすべて、または組み合わせて使用することで、パフォーマンスと効率をトレードオフすることができる
テキスト生成
「Diffusion Transformer architecture」により、スペル、カーニング、文字組み、スペーシングのミスを低減し、これまでにないテキスト品質を実現する
リソース効率
低いVRAMフットプリントにより、標準的なコンシューマー向けGPUでパフォーマンスを低下させることなく実行することができる
ファインチューニング
少量のデータセットから微妙なディテールを理解することができ、カスタマイズに最適

よりフォトリアルな画像を出力できるのが特徴

　また、NVIDIAとのコラボレーションにより、「NVIDIA RTX GPU」および「TensorRT」を活用することで、「Stable Diffusion 3 Medium」を含むすべての「Stable Diffusion」モデルのパフォーマンスを強化。「TensorRT」で最適化されたバージョンでは、パフォーマンスが50％向上するという。

　なお、「Stable Diffusion 3 Medium」は、Stability Non-Commercial Research Community Licenseの下でオープンリリースされている。大規模な商用利用を希望する場合は、Stability AIに問い合わせを行ない、エンタープライズライセンスを取得する必要がある。

　同社では、ユーザーのフィードバックをもとに「Stable Diffusion 3 Medium」を継続的に改善、機能を拡張し、パフォーマンスを向上させる予定。Stable Diffusion 3 Mediumを「AI生成アートにおける創造性の新たな基準を設定し、プロと趣味利用の方の双方に不可欠なツールにすること」を目標としているとのこと。

Amazonで購入

「生成AI」関連書籍 Amazonで購入