レビュー

言葉で指示した画像を凄いAIが描き出す「Stable Diffusion」 ~画像は商用利用も可能

リアルな画像からコミカルなイラストまで、英文の指示で画像を自動生成

「Stable Diffusion Demo」

 英Stability AIが発表した画像生成AI「Stable Diffusion」が、にわかに注目を集めている。基本的にローカルに実行環境を整え、インストールして使用するツールだが、デモサイトで手軽に試すことも可能。

オープンソース化された画像生成AI「Stable Diffusion」

 画像生成AIと言えば、つい先日から「MidJourney」というサービスが話題になっている。どんな画像が欲しいかを英文テキストで入力すると、AIがそれに沿った画像を自動生成するというものだ。「Stable Diffusion」もテキストに対応する画像をAIが生成するという部分は共通している。

 しかし「Stable Diffusion」には、「MidJourney」とは異なる魅力的なポイントがいくつかある。

 まず「Stable Diffusion」がオープンソース化されたこと。「MidJourney」は一定数までは無料で体験できるが、その後はサブスクリプション制の有料サービス(生成数無制限なら月額30ドル)となっている。「Stable Diffusion」はオープンソースなので、誰でも無料で利用可能だ。

 代わりに動作させるためのハードウェアも必要になるが、現状では10GB以上のビデオメモリとNVIDIA製GPUを搭載したビデオカードがあれば、一般のPCでも動作可能としている。もしビデオカードがなくても、Googleが提供しているWebブラウザー上でPythonを実行できる無料サービス「Colaboratory」で動作したという報告もある。

 また生成した画像については、作成者が権利を持つとされており、商用利用も可能。実在の人物やキャラクターなどを描いた場合は肖像権が発生するので何でもありとは言わないが、そこに配慮すれば活用の幅はかなり広い。生成する画像に具体的な活用法が見えるのであれば、極めてローコストで美麗な画像を入手できるツールになりうる。

 ローカルで実行環境を作るのには、それなりの知識と機材が必要にはなる。それでも、どんな画像を生成したのか誰にも知られることなく、好きな時に好きなだけ画像生成にチャレンジできるのは魅力的だ。

デモサイト「Stable Diffusion Demo」で実際に試してみた

 ……といった細かい話は置いておき、実際にどんな画像ができるのかを見ていこう。「Stable Diffusion」による画像出力をWebブラウザー上で簡単に試せるデモ「Stable Diffusion Demo」が用意されている。

 使用するキーワードは英文でということだが、試しに日本語を入れてみると、案外それっぽい絵が出力された。完全に読み取っているわけではなく、一部の日本語を認識できる程度のようだ。

試しに「日本人」と入れてみた。一応アジアっぽくはある
「窓の杜」。よくわからないが、漢字からアジアっぽくなったのだろうか
「5匹の子猫がダンボール箱の中に集まっているところ」。5匹いないがAI生成画像と思えないほどリアルでかわいい

 日本語が使えるとは書いていないので、素直に英語に翻訳したものを貼り付けてみる。するといくぶん精度の高い画像が生成された。「こんな使い方もあるのでは?」とアイデアを出しているだけでも楽しい。

「5匹の子猫がダンボール箱の中に集まっているところ」を翻訳して貼り付け。はっきりと精度が上がった。そしてかわいい
「メカ怪獣が富士山にビームを撃って大噴火」。思ったのとは違うがどれも味があるイラスト
「赤い服の忍者をドット絵で」。ドット絵は苦手なようだが、意図は伝わっている
「深夜の新宿で働く2体のロボット」。何に使えるかは全くわからないが個人的にはとても好き

 画像の細部を見ると少々おかしな部分が見えるものも多いが、驚くほど精緻な画像が出力されることもある。絵のジャンルによって得手不得手もあるようで、リアルな映像やコミックタッチのイラストでは見事なものが出てくることも多い。その辺りも見極めつつ指示文章を微調整し、何度も繰り返し出力させていれば、いずれ求めるものに近い画像が手に入れられそうな印象だ。

同じテキストで画像生成しても、リアルな写真風のものや絵画調のものなどテイストの違うものも出てくる

 なおデモサイトでは1つ実行するのに約4分かかっており、混雑時にはエラーが出ることもある。もっと多数の画像を生成したい場合は、ローカル環境の構築を考えてみるのがいいだろう。