特集・集中企画
画像生成AI「Stable Diffusion」で青空文庫の名作小説に挿絵をつけてみた!
「坊っちゃん」の赤シャツはBL風、観音様はギリシャ風に!?
2022年12月28日 11:30
テキストの指示に合わせて絵を描くAI「Stable Diffusion」。最初は物珍しさから触ってみる人が多かったが、クオリティの高さは想像以上で、各所で具体的に使われ始めている。プロのイラストレーターが本ソフトをベースにしてイラストを描いたり、AIで描かれた絵画の画集も発売されるなど、既に絵として価値を持つものもある。
今回は本ソフトの使用を想定して、青空文庫にある有名作品から、有名なシーンのイラストを描いてもらうことにした。テキストの指示に合わせて絵を描くなら、小説の挿絵を作るのに最適なのでは、という発想だ。果たしてどんなイラストが出てくるのか?
最新ハイエンドゲーミングPCで挿絵を生成
今回使用するのは、「Stable Diffusion」をGUIで操作できる「NMKD Stable Diffusion GUI」。本家「Stable Diffusion」と比べてインストールも格段に楽で、Windows環境とビデオカードがあればすぐに実行環境が整う。使い方については前回の記事をご覧いただきたい。
上記の記事ではNVIDIA製GPUであるGeForceシリーズが必要、としているが、「NMKD Stable Diffusion GUI」が先日バージョンアップし、AMD製GPUのRadeonシリーズでも動作可能になったとされている。AMD製GPUをお持ちの方も試してみるといいだろう。
使用するPCは前回に引き続き、株式会社マウスコンピューターのゲーミングPCブランド「G-Tune」から、「GeForce RTX 4090」を搭載した最新・最上位のPC「G-Tune XP-Z」をお借りした。
【G-Tune XP-Zのスペック】 | |
---|---|
CPU | Core i7-13700KF(Pコア×8+Eコア×8、24スレッド、最大5.4GHz) |
CPUクーラー | 水冷(360mmラジエーター) |
チップセット | Intel Z790 |
GPU | GeForce RTX 4090(ビデオメモリGDDR6X 24GB) |
メモリ | 64GB DDR5-4400(32GB×2) |
SSD | 2TB(M.2 NVMe Gen4×4) |
HDD | 4TB |
光学ドライブ | DVDスーパーマルチ(スロットイン) |
電源 | 1,000W(80PLUS PLATINUM) |
OS | Windows 11 Home |
汎用ポート | USB 3.2 Type-C×1、USB 3.0×6、USB 2.0×4 |
カードスロット | なし |
映像出力 | HDMI×1、DisplayPort×3 |
有線LAN | 2.5Gigabit Ethernet |
無線機能 | なし |
その他 | 音声入出力など |
本体サイズ | 約220×490×501mm(幅×奥行き×高さ) |
重量 | 約19.7㎏ |
価格 | 679,800円 |
青空文庫の作品から印象的なシーンを抜き出す
今回は青空文庫の作品の挿絵を作るつもりで使うのだが、日本語は認識精度がよくないので、原文を英語に翻訳して入力する。翻訳には「みらい翻訳」を使用した。原文を文語的にきっちり翻訳してくれる印象で、「Stable Diffusion」の入力にも合うのではないかと思う。
使用する作品は、太宰治「走れメロス」、夏目漱石「坊っちゃん」、宮沢賢治「オツベルと象」、江戸川乱歩「怪人二十面相」。それぞれ印象的かつ「Stable Diffusion」が理解しやすそうな描写のあるシーンを選んでみた。
今回はPCがとてもパワフルなので、出力解像度は設定最大値の1,024×1,024ピクセルとし、1回の出力画像の数を20枚とした。出力を多くしたのは、意図と違う画像や、見た目が不自然な画像がどうしても混じるため。多数の画像を同条件で生成し、優れたものを選ぶというのがAI絵画では必須だ。「G-Tune XP-Z」だと1枚の生成に10秒もかからないので、20枚でも3分足らずで終わる。
また高解像度での出力だと人物などが複数描かれてしまうことがあるのだが、「High-Resolution Fix」にチェックを入れるとこの現象が緩和される。未チェックに比べて明らかに生成画像の精度や品質が上がるので、高解像度で出力する場合はチェックを推奨する。
小説の一節を翻訳して画像を生成すると?
では実際に画像生成を試してみよう。
「走れメロス」は中世ヨーロッパ風
原文
野原で酒宴の、その宴席のまっただ中を駈け抜け、酒宴の人たちを仰天させ、犬を蹴とばし、小川を飛び越え、少しずつ沈んでゆく太陽の、十倍も早く走った。
「坊っちゃん」の赤シャツはコメディ風やBL風など多彩
原文
何だかべらべら然たる着物へ縮緬の帯をだらしなく巻き付けて、例の通り金鎖をぶらつかしている。
完成度の高い「オツベルと象」
原文
そのうち外の象どもは、仲間のからだを台にして、いよいよ塀を越しかかる。
「怪人二十面相」からは3つのシーンを生成
こちらの作品では3つのシーンを採用した。
小林少年が変装した観音像が立ち上がるシーン
原文
観音さまが、れんげの台座からおりて、床の上に、ヌッと立ちあがったではありませんか。
小林少年が落とされた地下室の描写
原文
部屋のすみに一脚のこわれかかった長イスがおかれ、その上に一枚の古毛布がまるめてあるほかには、道具らしいものは何一品ありません。
怪人二十面相が変装した老人を明智探偵が捕まえるシーン
原文
明智探偵はさけぶやいなや、いままで親切らしくにぎっていた老人の手を、いきなりうしろにねじあげて、床の上に組みふせたかと思うと、白髪のかつらと、白いつけひげとを、なんなくむしりとってしまいました。
翻訳
As soon as Detective Akechi cried out, he suddenly twisted the hand of the old man, who had been so kindly holding it, backward and folded it over the floor, and somehow plucked away his white wig and white false beard.
明智探偵という言葉のせいか、日本のアニメ調のイラストが多数出力された。ただそれ以上の部分では理解が追いついておらず、破綻した絵も多かった。やはり長文になると具体的な描写が多すぎて、全てを理解して絵に取り入れるのが難しいようだ。
状況を具体的、端的に示せばもっと高クオリティに
試行によって良し悪しはあるものの、やはり原文を翻訳しただけではイメージするものは出てこないことがほとんどだ。筆者の経験からすると、もっと状況を具体的、かつ端的に示す方が、目的に近いものは出てくる。
例えば「走れメロス」のシーンであれば、「古代ギリシャの羊飼いが夕暮れの平原を走る(An ancient Greek shepherd runs through a field at dusk)」などとした方が、実際に使えそうな絵には近づく。ここから表現を変えたり、要素を足し引きしたりしながら繰り返していって、目的に近づけていくという手順になる。
出力数を増やすのがコツ
今回は文学作品を機械翻訳して入力に使うというお遊びの内容だが、そんな荒い手順でもこれほど高品質な画像が生成できるということは伝わったと思う。
修正の余地としては、本文の翻訳ではなく、絵として欲しいものの要素を羅列する方がいい。文法が正しいかどうかより、求める要素が単語として含まれているかの方を重視しよう。英語が苦手でも日英辞書さえ使えれば何とかなる。
その上で、出力数を増やすこと。同じテキストを入力しても、出力される画像は毎回違うため、数枚程度では傾向すら把握できない。筆者は今回20枚ずつ生成したが、これくらいやればソフトがテキストのどの要素を強く反映しているか、どういう絵を出しやすいかが読めてくる。
さらにイメージに近いイラストが出てきたとしても、細部があちこち破綻していることは頻繁にある。むしろ文句なしのイラストが出てくることはほぼないと思った方がいい。だからこそ出力数を増やして、似たイラストの中からマシなものを拾い上げるのが重要になる。そのためには高性能なPCが欲しくなるわけで、今回使用した「G-Tune XP-Z」にもなると実に快適だ。
ほかには学習モデルやサンプラーを変えるという手もある。この辺りの話は別途記事が必要になるほど長くなるので控えるが、ソフト側の設定を詰めることでも精度を上げたりバリエーションを増やしたりできる。
学習モデルを変えると出力画像が劇的に変化するので、目的に合った学習モデルを使うのは効果的だ。個人で公開している人もおり、日に日にバリエーションが増えている。ただ学習元の写真やイラストはどうしても著作権が付きまとい、特定の作者・作品を学習させたものは著作権を侵害したとされる可能性もある。独自の学習モデルを使う場合は注意が必要だ。
AIお絵描きが誰にでも使えるようになったのは素晴らしいことだが、AIが絵を描けるのは、無数のイラストレーターや写真家による作品から学んだからだ。そういったアーティストへの敬意を忘れることなく、AI作品を楽しんでいただきたい。
1977年生まれ、滋賀県出身。
ゲーム専門誌『GAME Watch』(インプレス)の記者を経てフリージャーナリスト。ゲーム等のエンターテイメントと、PC・スマホ・ネットワーク等のIT系にまたがる分野を中心に幅広く執筆中。1990年代からのオンラインゲーマー。窓の杜では連載「石田賀津男の『酒の肴にPCゲーム』」、「初月100円! オススメGame Pass作品」などを執筆。
- 著者Webサイト:https://ougi.net/