ニュース
「Stable Diffusion 3 Medium」がついに解禁、一般的なGPUでも効率よく動作する2Bモデル
フォトリアリズムを実現、NVIDIAとの提携によりパフォーマンス50%向上
2024年6月13日 10:01
英Stability AIは6月12日(現地時間)、画像生成モデル「Stable Diffusion 3 Medium」をリリースした。現在、オープンな非商用ライセンスおよび低コストのクリエイターライセンスの下で利用可能。APIも提供されており、アプリは「Hugging Face」よりダウンロードするか、「Stable Assistant」や「Stable Artisan」等からも利用できる。
「Stable Diffusion 3 Medium」は、同社のフラッグシップ画像生成(text-to-image)AI「Stable Diffusion 3」シリーズの20億パラメーターモデル。サイズが小さいため、個人向けシステムや企業向けGPUで動作させるのに最適なAIモデルとなっている。主な特徴は下記の通り。
- 全体的な品質とフォトリアリズム
ディテール、カラー、ライティングに優れ、フォトリアリスティックな出力と、柔軟なスタイルでの高品質な出力を可能にする。16チャンネルVAEなどの工夫により、手や顔のリアルさなど、他機種にありがちな落とし穴にも対応 - プロンプトの理解
空間的推論、構成要素、アクション、スタイルを含む、長く複雑なプロンプトを理解する。3つのテキストエンコーダーをすべて、または組み合わせて使用することで、パフォーマンスと効率をトレードオフすることができる - テキスト生成
「Diffusion Transformer architecture」により、スペル、カーニング、文字組み、スペーシングのミスを低減し、これまでにないテキスト品質を実現する - リソース効率
低いVRAMフットプリントにより、標準的なコンシューマー向けGPUでパフォーマンスを低下させることなく実行することができる - ファインチューニング
少量のデータセットから微妙なディテールを理解することができ、カスタマイズに最適
また、NVIDIAとのコラボレーションにより、「NVIDIA RTX GPU」および「TensorRT」を活用することで、「Stable Diffusion 3 Medium」を含むすべての「Stable Diffusion」モデルのパフォーマンスを強化。「TensorRT」で最適化されたバージョンでは、パフォーマンスが50%向上するという。
なお、「Stable Diffusion 3 Medium」は、Stability Non-Commercial Research Community Licenseの下でオープンリリースされている。大規模な商用利用を希望する場合は、Stability AIに問い合わせを行ない、エンタープライズライセンスを取得する必要がある。
同社では、ユーザーのフィードバックをもとに「Stable Diffusion 3 Medium」を継続的に改善、機能を拡張し、パフォーマンスを向上させる予定。Stable Diffusion 3 Mediumを「AI生成アートにおける創造性の新たな基準を設定し、プロと趣味利用の方の双方に不可欠なツールにすること」を目標としているとのこと。