特集・集中企画

画像生成AI「Stable Diffusion」で青空文庫の名作小説に挿絵をつけてみた!

「坊っちゃん」の赤シャツはBL風、観音様はギリシャ風に!?

「Stable Diffusion」のGUIツール「NMKD Stable Diffusion GUI」

 テキストの指示に合わせて絵を描くAI「Stable Diffusion」。最初は物珍しさから触ってみる人が多かったが、クオリティの高さは想像以上で、各所で具体的に使われ始めている。プロのイラストレーターが本ソフトをベースにしてイラストを描いたり、AIで描かれた絵画の画集も発売されるなど、既に絵として価値を持つものもある。

 今回は本ソフトの使用を想定して、青空文庫にある有名作品から、有名なシーンのイラストを描いてもらうことにした。テキストの指示に合わせて絵を描くなら、小説の挿絵を作るのに最適なのでは、という発想だ。果たしてどんなイラストが出てくるのか?

最新ハイエンドゲーミングPCで挿絵を生成

 今回使用するのは、「Stable Diffusion」をGUIで操作できる「NMKD Stable Diffusion GUI」。本家「Stable Diffusion」と比べてインストールも格段に楽で、Windows環境とビデオカードがあればすぐに実行環境が整う。使い方については前回の記事をご覧いただきたい。

 上記の記事ではNVIDIA製GPUであるGeForceシリーズが必要、としているが、「NMKD Stable Diffusion GUI」が先日バージョンアップし、AMD製GPUのRadeonシリーズでも動作可能になったとされている。AMD製GPUをお持ちの方も試してみるといいだろう。

 使用するPCは前回に引き続き、株式会社マウスコンピューターのゲーミングPCブランド「G-Tune」から、「GeForce RTX 4090」を搭載した最新・最上位のPC「G-Tune XP-Z」をお借りした。

フルタワーケースを採用した「G-Tune XP-Z」
【G-Tune XP-Zのスペック】
CPUCore i7-13700KF(Pコア×8+Eコア×8、24スレッド、最大5.4GHz)
CPUクーラー水冷(360mmラジエーター)
チップセットIntel Z790
GPUGeForce RTX 4090(ビデオメモリGDDR6X 24GB)
メモリ64GB DDR5-4400(32GB×2)
SSD2TB(M.2 NVMe Gen4×4)
HDD4TB
光学ドライブDVDスーパーマルチ(スロットイン)
電源1,000W(80PLUS PLATINUM)
OSWindows 11 Home
汎用ポートUSB 3.2 Type-C×1、USB 3.0×6、USB 2.0×4
カードスロットなし
映像出力HDMI×1、DisplayPort×3
有線LAN2.5Gigabit Ethernet
無線機能なし
その他音声入出力など
本体サイズ約220×490×501mm(幅×奥行き×高さ)
重量約19.7㎏
価格679,800円

G-Tune XP-Z [ Windows 11 ]│パソコン(PC)通販のマウスコンピューター【公式】

青空文庫の作品から印象的なシーンを抜き出す

 今回は青空文庫の作品の挿絵を作るつもりで使うのだが、日本語は認識精度がよくないので、原文を英語に翻訳して入力する。翻訳には「みらい翻訳」を使用した。原文を文語的にきっちり翻訳してくれる印象で、「Stable Diffusion」の入力にも合うのではないかと思う。

みらい翻訳 - Chrome ウェブストア

 使用する作品は、太宰治「走れメロス」、夏目漱石「坊っちゃん」、宮沢賢治「オツベルと象」、江戸川乱歩「怪人二十面相」。それぞれ印象的かつ「Stable Diffusion」が理解しやすそうな描写のあるシーンを選んでみた。

 今回はPCがとてもパワフルなので、出力解像度は設定最大値の1,024×1,024ピクセルとし、1回の出力画像の数を20枚とした。出力を多くしたのは、意図と違う画像や、見た目が不自然な画像がどうしても混じるため。多数の画像を同条件で生成し、優れたものを選ぶというのがAI絵画では必須だ。「G-Tune XP-Z」だと1枚の生成に10秒もかからないので、20枚でも3分足らずで終わる。

 また高解像度での出力だと人物などが複数描かれてしまうことがあるのだが、「High-Resolution Fix」にチェックを入れるとこの現象が緩和される。未チェックに比べて明らかに生成画像の精度や品質が上がるので、高解像度で出力する場合はチェックを推奨する。

小説の一節を翻訳して画像を生成すると?

 では実際に画像生成を試してみよう。

「走れメロス」は中世ヨーロッパ風

太宰治 走れメロス

原文

野原で酒宴の、その宴席のまっただ中を駈け抜け、酒宴の人たちを仰天させ、犬を蹴とばし、小川を飛び越え、少しずつ沈んでゆく太陽の、十倍も早く走った。

翻訳

I ran through the fields of the feast, the middle of the feast, to the astonishment of the feasts, kicked the dogs, leaped over the brook, and ran ten times faster than the slowly sinking sun.

 全体的に中世ヨーロッパ風の絵画が多いが、絵としては人と犬がごちゃごちゃしたものが多い。言葉の意味を単語ごとにくみ取ってはいるが、文章が長くて要素が多すぎるのか、全体として理解するのはまだ難しいように見える。

後ろには犬と混ざってしまった人も
妖精のパーティーを思わせる光景
壮大な神話のように小川を飛び越えるメロス
てんやわんやになっていることは表現されている

「坊っちゃん」の赤シャツはコメディ風やBL風など多彩

夏目漱石 坊っちゃん

原文

何だかべらべら然たる着物へ縮緬の帯をだらしなく巻き付けて、例の通り金鎖をぶらつかしている。

翻訳

He had loosely wrapped a crepe sash around his somewhat slippery kimono, and was, as usual, dangling a gold chain.

 これは主人公が敵役「赤シャツ」と出会った場面の描写。着物という単語に反応して和風のイラストが出てくることが多い。腰巻や金の鎖といった要素も拾っているのがよくわかる。もう少し具体的な表現に絞ったりすれば、より狙いに近いものになりそうだ。

着物、金鎖、帯という要素をしっかりとらえ、べらべら感も出ている
2人に分裂してBL風になってしまった
アメリカンホームコメディにでてきそうなシーン
すべての要素を拾いつつ、さらに「赤シャツ」の嫌味な感じを出している

完成度の高い「オツベルと象」

宮沢賢治 オツベルと象

原文

そのうち外の象どもは、仲間のからだを台にして、いよいよ塀を越しかかる。

翻訳

Soon the elephants outside, using their companions as platforms, will come over the wall.

 これはラスト近くで白い象を助けに来た象達が攻め込むシーン。塀(wall)を越える象、という部分に強く反応している。こんな絵は学習していないと思われるが、それなりに描いているのは見事だ。細部は破綻しているところもあるが、象自体はかなりうまく描いている。

象達がやってきた
仲間の体を台にして……
塀の上まで登り……
攻め込んできたぞぅ

「怪人二十面相」からは3つのシーンを生成

江戸川乱歩 怪人二十面相

 こちらの作品では3つのシーンを採用した。

小林少年が変装した観音像が立ち上がるシーン

原文

観音さまが、れんげの台座からおりて、床の上に、ヌッと立ちあがったではありませんか。

翻訳

Did not the Goddess of Mercy step down from her pedestal and stand up on the floor?

 翻訳はうまくないのだが、絵画と彫刻の双方で、観音様、あるいは女神を描いているのがわかる。これももう少し要素を足してやれば、作品のイメージに近づけられそうな感触がある。

ギリシャ神話のニケ風観音様
こちらはヒンドゥー教の要素が入っている
豊かな髪の毛と布地が作る襞が美しいルネサンス観音
ヘレニズムの影響がうかがえる観音像

小林少年が落とされた地下室の描写

原文

部屋のすみに一脚のこわれかかった長イスがおかれ、その上に一枚の古毛布がまるめてあるほかには、道具らしいものは何一品ありません。

翻訳

Apart from a broken chair in a corner of the room and an old blanket rolled up on it, there was nothing quite like a tool.

 道具らしいもの、という表現に引っ張られすぎた感じがする。椅子の要素があまり拾われていないのと、原文に時代設定を示す表現がないので、その辺りも組み入れていけばイメージに近づけそうだ。

道具っぽい何かと丸まった毛布はある。手前にちらっと見えている木の板が椅子なのかもしれない
道具っぽい何かと毛布のみ
もはや毛布すらないが、なぜか地下室っぽさはある
道具と毛布のみで椅子はないが地下室っぽくはある。プロンプトには地下室とは一言も書いてないのだが……

怪人二十面相が変装した老人を明智探偵が捕まえるシーン

原文

明智探偵はさけぶやいなや、いままで親切らしくにぎっていた老人の手を、いきなりうしろにねじあげて、床の上に組みふせたかと思うと、白髪のかつらと、白いつけひげとを、なんなくむしりとってしまいました。

翻訳

As soon as Detective Akechi cried out, he suddenly twisted the hand of the old man, who had been so kindly holding it, backward and folded it over the floor, and somehow plucked away his white wig and white false beard.

 明智探偵という言葉のせいか、日本のアニメ調のイラストが多数出力された。ただそれ以上の部分では理解が追いついておらず、破綻した絵も多かった。やはり長文になると具体的な描写が多すぎて、全てを理解して絵に取り入れるのが難しいようだ。

老人に変装しているのはバレバレ
細部は破綻しているが、老人がつかまっている感じがする
正体を現した怪人二十面相。悪そうだ。
怪人二十面相と向かい合う明智探偵。かなりイメージに近い

状況を具体的、端的に示せばもっと高クオリティに

 試行によって良し悪しはあるものの、やはり原文を翻訳しただけではイメージするものは出てこないことがほとんどだ。筆者の経験からすると、もっと状況を具体的、かつ端的に示す方が、目的に近いものは出てくる。

 例えば「走れメロス」のシーンであれば、「古代ギリシャの羊飼いが夕暮れの平原を走る(An ancient Greek shepherd runs through a field at dusk)」などとした方が、実際に使えそうな絵には近づく。ここから表現を変えたり、要素を足し引きしたりしながら繰り返していって、目的に近づけていくという手順になる。

年齢は違うがイメージは近い。靴が片方ランニングシューズなのはご愛敬
こちらもだいぶご高齢のメロス。元気そうだが無理はしないでほしい
おじさんのメロスはまだ余裕がありそう
これぞメロス! 遠くに見える人物はセリヌンティウスの幻か

出力数を増やすのがコツ

 今回は文学作品を機械翻訳して入力に使うというお遊びの内容だが、そんな荒い手順でもこれほど高品質な画像が生成できるということは伝わったと思う。

 修正の余地としては、本文の翻訳ではなく、絵として欲しいものの要素を羅列する方がいい。文法が正しいかどうかより、求める要素が単語として含まれているかの方を重視しよう。英語が苦手でも日英辞書さえ使えれば何とかなる。

 その上で、出力数を増やすこと。同じテキストを入力しても、出力される画像は毎回違うため、数枚程度では傾向すら把握できない。筆者は今回20枚ずつ生成したが、これくらいやればソフトがテキストのどの要素を強く反映しているか、どういう絵を出しやすいかが読めてくる。

 さらにイメージに近いイラストが出てきたとしても、細部があちこち破綻していることは頻繁にある。むしろ文句なしのイラストが出てくることはほぼないと思った方がいい。だからこそ出力数を増やして、似たイラストの中からマシなものを拾い上げるのが重要になる。そのためには高性能なPCが欲しくなるわけで、今回使用した「G-Tune XP-Z」にもなると実に快適だ。

 ほかには学習モデルやサンプラーを変えるという手もある。この辺りの話は別途記事が必要になるほど長くなるので控えるが、ソフト側の設定を詰めることでも精度を上げたりバリエーションを増やしたりできる。

 学習モデルを変えると出力画像が劇的に変化するので、目的に合った学習モデルを使うのは効果的だ。個人で公開している人もおり、日に日にバリエーションが増えている。ただ学習元の写真やイラストはどうしても著作権が付きまとい、特定の作者・作品を学習させたものは著作権を侵害したとされる可能性もある。独自の学習モデルを使う場合は注意が必要だ。

 AIお絵描きが誰にでも使えるようになったのは素晴らしいことだが、AIが絵を描けるのは、無数のイラストレーターや写真家による作品から学んだからだ。そういったアーティストへの敬意を忘れることなく、AI作品を楽しんでいただきたい。

著者プロフィール:石田賀津男(いしだ かつお)

1977年生まれ、滋賀県出身。

ゲーム専門誌『GAME Watch』(インプレス)の記者を経てフリージャーナリスト。ゲーム等のエンターテイメントと、PC・スマホ・ネットワーク等のIT系にまたがる分野を中心に幅広く執筆中。1990年代からのオンラインゲーマー。窓の杜では連載「石田賀津男の『酒の肴にPCゲーム』」、「初月100円! オススメGame Pass作品」などを執筆。