特集・集中企画

ハイエンドゲーミングPCで「Stable Diffusion」を動かすと凄い! 高解像度画像を数秒で生成

簡単に導入できるGUIツールの使用方法も紹介

「Stable Diffusion」のGUIツール「NMKD Stable Diffusion GUI」

 テキストの指示に合わせて絵を描くAI「Stable Diffusion」。同種のお絵描きAIは既にいくつか存在していたが、本ソフトは一般的なPCで動作する上、ソフト本体は無料で提供されていることから、多くの人から注目を集めている。

 既に利用しているという人も多いと思うが、今回は改めて本ソフトに必要なPCのスペックを確認しつつ、GUIツールを用いて簡単に始められる方法を紹介する。さらに「GeForce RTX 4090」を搭載した最新のハイエンドゲーミングPCを用意し、どのくらい高速に画像を生成できるのかも試してみた。

「Stable Diffusion」を使うためのPC選び

 まず動作に必要となるのは、3Dゲームなどで使われるビデオカード。安価なPCではCPU内蔵グラフィックスを使っていることが多いが、別途、単体のビデオカード(ディスクリートGPU)を搭載していることが前提となる。

 ビデオカードに搭載されるGPUはいくつかの企業が提供しているが、本ソフトはNVIDIA製GPUであるGeForceシリーズに向けて開発されているため、GeForceを搭載したビデオカードを選ぶのがいい。

 もう1つ重要なのが、ビデオカードに搭載されるビデオメモリの量。本ソフトは当所のバージョンでは10GB以上のビデオメモリを搭載した製品を要求していたが、現在は改善が進んで、4GB程度のビデオメモリでも動かせる方法がある。ただビデオメモリが多いほど生成する画像サイズを大きくできるなどのメリットがあり、なるべく大容量のビデオメモリを搭載したビデオカードを選ぶ方がいい。

 またGPUの処理能力が高ければ高いほど、本ソフトでの画像生成処理が高速になる。実際の利用シーンでは、指示した言葉でいくつもの画像を生成したり、言葉を少しずつ調整して再生成したりして、目的に合致する画像を探すことになる。そのため性能がいいビデオカードほど待ち時間が減り、快適に利用できることになる。

 ちなみにGeForce以外のGPUを搭載したビデオカードや、ビデオカードがない環境でも実行できるものが各所で開発・発表されている。ただ導入手順が特殊だったり、動作に制約があったりするので、新たにビデオカードを購入するのであればGeForce搭載製品を選ぶのがベターだ。

 それ以外の部分については、特に規定はない。消費電力の大きなビデオカードをまかなえる電源ユニットや、ソフトを起動するだけの余裕のあるメインメモリは必要だが、CPUの性能やストレージ類は、本ソフトの動作にはさほど影響しない。普段の利用に不都合が出るほどスペックが低いとか、ストレージに空きがなく生成した画像を保存できないというわけでないなら問題はないだろう。

 もし本ソフトのために新たなPCを用意するなら、ビデオカードを搭載したPC、いわゆるゲーミングPCの中から、予算に合う製品を選ぶことになる。その際に注目すべきは搭載されているビデオカードの性能、ということになる。

どのビデオカードが最適?

 具体的にどのビデオカードを選べばいいのか考えるため、現在主に販売されているGeForce製品である「GeForce RTX 4000」シリーズおよび「同3000」シリーズを並べてみよう。概ね処理能力が高い順に並べており、製品価格もこの順番にほぼ従う。型番の後ろには、ビデオメモリの搭載量を記す。

  • GeForce RTX 4090(24GB)
  • GeForce RTX 4080(16GB)
  • GeForce RTX 3090 Ti(24GB)
  • GeForce RTX 3090(24GB)
  • GeForce RTX 3080 Ti(12GB)
  • GeForce RTX 3080(12GB/10GB)
  • GeForce RTX 3070 Ti(8GB)
  • GeForce RTX 3070(8GB)
  • GeForce RTX 3060 Ti(8GB)
  • GeForce RTX 3060(12GB/8GB)
  • GeForce RTX 3050(8GB)

 注目すべきはビデオメモリの搭載量だ。一部のモデルでは、同じ型番でありながらビデオメモリの搭載量が異なるものがある。本ソフトの利用にはビデオメモリは大容量なほどいいので、購入時には忘れず確認しておきたい。

 安価な製品の中では、「GeForce RTX 3060」だけが12GBと大きめのビデオメモリを搭載したモデルが用意されている。本ソフトを安価に導入したいなら、「GeForce RTX 3060」の12GBモデルは最適と言える。執筆時点では、ビデオカードの単体価格で4万円台からとなっているが、8GBのモデルもあるので間違えないように注意。

 よりビデオメモリ搭載量が多いモデルとしては、24GBを搭載した「GeForce RTX 3090」がある。ただこちらは価格が一気に跳ね上がり、単体価格で18万円台から。最新型で最も高性能な「GeForce RTX 4090」だと27万円台からとなる。最高の環境を求めるなら24GB搭載モデルを選びたいが、価格は相当高価になると覚悟した方がいい。

 ビデオカードは本ソフト専用というわけではなく、本来の用途である3Dゲームでも力を発揮する。もし両方で使ってみたいのであれば、ビデオメモリ搭載量を最優先しつつ、各々のお財布事情に合った製品を選ぶといいだろう。

 また同じGeForceのGPUを搭載したビデオカードでも、製品は各社から複数出ていることもある。その中での選定基準としては、騒音対策を考えるのがいい。本ソフトの実行中はビデオカードの負荷が上がり、発熱を処理するために冷却ファンのノイズが大きくなる。騒音を気にしないならどの製品でも問題ないが、なるべく静かな環境で利用したいなら、冷却ファンの数が多い製品や、静粛性を売りにしている製品を選ぶのがいいだろう。

「NMKD Stable Diffusion GUI」で簡単に環境構築

 では実際に本ソフトを実行してみよう。今回は実行環境として、株式会社マウスコンピューターにご協力いただき、ゲーミングPCブランド「G-Tune」の中でも、「GeForce RTX 4090」を搭載した最新・最上位のPC「G-Tune XP-Z」を用意した。

フルタワーケースを採用した「G-Tune XP-Z」
【G-Tune XP-Zのスペック】
CPUCore i7-13700KF(Pコア×8+Eコア×8、24スレッド、最大5.4GHz)
CPUクーラー水冷(360mmラジエーター)
チップセットIntel Z790
GPUGeForce RTX 4090(ビデオメモリGDDR6X 24GB)
メモリ64GB DDR5-4400(32GB×2)
SSD2TB(M.2 NVMe Gen4×4)
HDD4TB
光学ドライブDVDスーパーマルチ(スロットイン)
電源1,000W(80PLUS PLATINUM)
OSWindows 11 Home
汎用ポートUSB 3.2 Type-C×1、USB 3.0×6、USB 2.0×4
カードスロットなし
映像出力HDMI×1、DisplayPort×3
有線LAN2.5Gigabit Ethernet
無線機能なし
その他音声入出力など
本体サイズ約220×490×501mm(幅×奥行き×高さ)
重量約19.7㎏
価格679,800円(クリスマスセール価格619,800円)

G-Tune XP-Z [ Windows 11 ]│パソコン(PC)通販のマウスコンピューター【公式】

 ゲーム用としてはもちろん、本ソフトの実行環境としてもこの上ないスペックとなっている。高性能になると発熱も増えるが、CPUクーラーは水冷式を採用し、内部に余裕があるフルタワーケースで冷却性能にも不安はない。

 では本ソフトの実行環境を作ろう。今回は簡単にGUI環境を構築できる「NMKD Stable Diffusion GUI」v1.7.2を利用する。まずはホームページからソフトをダウンロードする。無料だが、PayPal等で好きな金額を開発者に送れる。

 ダウンロードしたファイル「SD-GUI-1.7.2.7z」を解凍し、「StableDiffusionGui.exe」を実行すると、「NMKD Stable Diffusion GUI」が起動する。

【無料】圧縮・解凍のソフト一覧 - 窓の杜

 続いて左上にあるディスプレイのようなロゴの「Open Installer」ボタンをクリック。Installerのウインドウが出るので、「Install」ボタンを押す。しばらく待てばインストールが完了し、「Install」のボタンが「Re-Install」に変わる。

「NMKD Stable Diffusion GUI」。右上のツール群にあるディスプレイ型のボタンをクリック
必要なソフトは自動でインストールしてくれる

 これで実行環境は整うが、このまま実行するとフリーズすることが多い。いったんソフトを閉じて再起動すると問題なく動作することがあるので、うまく動かない時は試してみていただきたい。

言葉を入力して画像を生成する

 「NMKD Stable Diffusion GUI」の使用方法は、ウインドウの左上にある[Enter your prompt here...]欄に好きな言葉(呪文、プロンプト)を入力する。言語は問わないようで日本語も受け付けるが、言葉に対する出力画像の精度は英語の方が良い。英語ができないのであれば、翻訳ツールを使うなどして英文にしたものを入力するのがいいだろう。

 入力したら、右下にある[Generate!]ボタンをクリック。しばらく待つと画像が生成され、右側のスペースに表示される。生成した画像は「NMKD Stable Diffusion GUI」のインストールフォルダーにある「Images」フォルダーに自動で保存される。基本的な使い方はこれだけだ。

日本語もちょっとは理解してくれるが、英文の方がいい

 その他のオプションも色々用意されている。[Additional Input Data]オプションは描画のベースにする画像の指定。[Amount Of Images To Generate]オプションは一度に生成する画像の数。[Resolution]オプションは出力画像の解像度。[Generate Seamless (Tileable) Images]オプションはタイル状につなぎ合わせて使える画像を生成できる。他にも様々な調整が可能だ。

 さらに右上にある歯車のボタン「Open Settings」をクリックすると、設定画面が開く。ここでは処理速度を犠牲にしつつビデオメモリ消費量を減らすモードや、使用する学習モデルの指定、使用するGPUの選択、保存するフォルダーの指定などができる。

 今回の学習モデルは自動でインストールされた「Stable Diffusion 1.5」を使用したが、執筆時点では「Stable Diffusion」の本家で「Stable Diffusion 2.1」も公開されている。また特定ジャンルに特化した学習データも各所で公開されており、それらの導入も簡単にできる。

設定では学習モデルの入れ替えなどもできる

最新ハイエンドゲーミングPCと、3世代遅れのGPUで性能を比較

 せっかくマウスコンピューターから最強マシンをお借りしたことなので、参考までに筆者のPCと実行速度の比較をしてみたい。

【筆者PCの主なスペック】
CPUCore i7-13600K(Pコア×6+Eコア×8、20スレッド、最大5.1GHz)
CPUクーラー空冷(DeepCool AK400)
チップセットIntel Z690
GPUGeForce GTX 1080(ビデオメモリGDDR5X 8GB)
メモリ32GB DDR5-4800(16GB×2)
SSD1TB(M.2 NVMe Gen4×4)
電源850W(80PLUS PLATINUM)
OSWindows 11 Pro

 最も大きな差はビデオカードで、筆者は3世代前になる「GeForce GTX 1080」を使用している。ビデオメモリは8GB搭載しているので実行に問題はなく、3世代前とはいえ当時の上位製品。ゲーミング性能では「GeForce RTX 3060」と近く、まだ現役でいけるのだが、「GeForce RTX 4090」との性能差はかなり大きいと思われる。

 「NMKD Stable Diffusion GUI」を初期設定のままで実行する。プロンプトは「Stable Diffusion」ではおなじみの「a photograph of an astronaut riding a horse」(日本語訳:宇宙飛行士が馬に乗っている写真)。生成の様子を動画でご覧いただこう。

AIイラスト生成ツール「Stable Diffusion」をゲーミングPCで実行!

 筆者のPCで実行すると、およそ10秒ごとに画像が生成された。「Stable Diffusion」の公開当時に構築した環境だと、より低い解像度で1枚1分以上かかっていたので、かなり最適化が進んでいるようだ。これくらい速ければ待ち時間のストレスもそれほどない。

 続いて、最強PCこと「G-Tune XP-Z」で実行。

最強ゲーミングPCで「Stable Diffusion」を使ったら速すぎた!

 速すぎて思わず声が出てしまった。1枚たった1秒ほどで画像が生成されていく。これだと次に入力する言葉を考えている時間の方が長いくらいで、生成枚数を増やすなどして時間的余裕を作りたい。作業効率は筆者のPCよりも圧倒的に高い。

 一応、わかりやすく比較した動画も掲載しておく。筆者のPCが1枚生成する間に「G-Tune XP-Z」は5枚の生成を終えてしまう。

「Stable Diffusion」の生成過程ををRTX 4090搭載の「G-Tune XP-Z」とGTX 1080搭載PCで比較

 あまりにパワーがあり過ぎるので、画像のサイズを標準の512×512ピクセルから、設定できる最大値の1,024×1,024ピクセルに増やしてみた。この場合、筆者のPCだと1枚90秒近くかかった(むしろきちんと実行できたことに驚いた)ところ、「G-Tune XP-Z」では1枚6秒台で生成された。処理能力の高さに加え、十分なビデオメモリを搭載しているのが影響していそうだ。

筆者のPC(GeForce GTX 1080)では1枚当たり90秒近くかかる
「G-Tune XP-Z」(GeForce RTX 4090)なら1枚当たり6秒台で描く

 筆者のPCで512×512ピクセルの画像を描かせるより、「G-Tune XP-Z」で1,024×1,024ピクセルの画像を描かせる方が倍近く速い。やはり最新型の性能と大容量ビデオメモリは「Stable Diffusion」でも強力だ。

 またビデオメモリを24GB搭載したビデオカードを使用した場合、右上にある人の顔のアイコン「Train DreamBooth Model」が使用できる。これは好きな画像を学習させ、オリジナルの学習モデルを作成する機能。

 動作環境を手に入れるにはかなりの出費が要るとはいえ、オリジナルの学習モデルはとても夢が広がる機能だ。学習させる画像によっては、生成画像が著作権などに引っ掛かる可能性も出てはくるが、個人利用の範囲に留めておく分には問題はないだろう。

ビデオメモリを24GB搭載していれば、オリジナルの学習モデルを作成できる

お絵描きAIは全然難しくない

 やはり高性能なビデオカードでは圧倒的に画像の生成速度が速い。大量の画像を生成して優れたものを選び出すという作業工程から考えても、性能の高さは正義と言うほかない。

 とはいえ「NMKD Stable Diffusion GUI」を使うのであれば、ビデオメモリが少な目であっても動作はする。「GeForce RTX 3060」のように比較的安価なビデオカードや、筆者のようにもっと旧世代の製品でも、画像生成AIを試すのには問題ない。ある程度時間を費やせるのならば、十分に活用できる。

 「お絵描きAIが流行っているけど難しそう、大変そう」と想像している人は多いと思うが、本稿でご覧のとおり、ハード・ソフトの両面で別段難しいことはない。ビデオカードを搭載したゲーミングPCを用意できれば何ら手間はないので、ぜひ気軽にお試しいただきたい。

著者プロフィール:石田賀津男(いしだ かつお)

1977年生まれ、滋賀県出身。

ゲーム専門誌『GAME Watch』(インプレス)の記者を経てフリージャーナリスト。ゲーム等のエンターテイメントと、PC・スマホ・ネットワーク等のIT系にまたがる分野を中心に幅広く執筆中。1990年代からのオンラインゲーマー。窓の杜では連載『石田賀津男の『酒の肴にPCゲーム』』、『初月100円! オススメGame Pass作品』などを執筆。