生成AIストリーム

プロンプトだけで一歩先へ：AI画像生成でセンスをみがこう

しらいはかせ

2024年5月1日 16:41

　画像生成AIの市場拡大に伴い、画像生成サービスやプラットフォームが次々と増加しています。画像生成を利用してみたいとは思っているものの、料金体系や機能、要求されるPCのスペックなどに戸惑いなかなか前に進めていない方もいるかもしれません。

　そんな読者に向けて、「Stable Diffusion」と付き合いが長い筆者として『画像生成AI Stable Diffusionスタートガイド』という書籍を執筆しました。前回に引き続き、今回もこの書籍で解説している「AUTOMATIC1111/Stable Diffusion WebUI」（以下「A1111」)の内容を凝縮してお届けしつつ、この新年度の時期に需要がありそうな「広告ビジュアル作成」という身近で社会的な関心も高いテーマに沿って進めてみます。

AUTOMATIC1111 で画像を生成している様子

　GPU搭載PCがなくても、画像生成AIの初心者でも今すぐ始められる「A1111」を使って、社内や学校のサークルや募集などにバエる画像を作ってください！　今回は「A1111」の導入方法と基本的な使い方を解説していきます。

完成画像

　まずは、完成した画像をお見せしましょう。

最終成果物(1) 1人の女性の唇の赤色にフォーカスしたビジュアルが印象的な口紅の広告

最終成果物(2) 3人の丸眼鏡をかけた今風のファッションの女性が特徴的な眼鏡の広告

プロンプトを工夫しよう

それでは、実際に広告として使用できるようなハイクオリティな画像を生成していきましょう。画像のクオリティを上げる上で重要なのは、画像サイズとプロンプトです。順番に見ていきます。

画像サイズのコツ

「Stable Diffusion」（今回使用しているのは Stable Diffusion 1.5、通称「SD1.5系」）は、512×512pxの画像を学習しています。そのため512pxの倍数を基準とした画像サイズを設定することで、最も質の良い画像を生成することができます。

　画像の縦、横が極端に長かったり、1,920×1,080pxのような512の倍数にならない大きな画像をいきなり作ろうとすると画像に写る人物が増えたり、崩れたりといった制御できない状態が起きやすくなります。

例)720px×512px で生成した画像と1,024px×512pxで生成した画像

プロンプト

masterpiece, best quality, cinematic lighting, intricate composition, face focus, 1girl, dinner, wine, smiling, formal dress, restaurant

ネガティブプロンプト

worst quality, best quality, normal quality, bad anatomy, bad hands

720px×512px

1,024px×512px

　プロンプトに『1girl』と入力されており、他の条件が同じでも、運が悪いと2人目が登場してしまいます。これは先述のSD1.5系の学習が512x512であることによります。より広く高品質な画像生成を可能にしたSDXL系を使えば良くなりますが、実は「Stable Diffusion」の仕組みや各モデルの特性を理解することで、より短い試行で確実に高品質な画像を生成することができます。

プロンプトのコツ

　「Stable Diffusion」には『クオリティプロンプト』と呼ばれるプロンプトが存在します。冒頭に指定すると、高品質な画像を生成することができるようになります。『high quality』『mastarpiece』といったハイクオリティであることを表す単語を指定することで、「Stable Diffusion」が学習してきた画像の中にある一定の概念がより際立って画像に現れてきます。誰かが美しいと決めたわけではなく、世界中の画像で美しいと思われている画像の特徴が出てくるのが興味深いですね。

　モデルの種類や好みにより様々な書き方があり、またこれと定まった書き方もありませんが、基本的にはプロンプトに『masterpiece, best quality, high quality, ultra detailed』（最高傑作、最高品質、繊細な書き込みといった意味）を定型文として指定するとよいでしょう。またネガティブプロンプトに『worst quality, low quality, bad anatomy, bad hands』（低品質、歪んだ人体や手といった意味）を指定するとぐっと良くなります。

　では、クオリティプロンプトの有無でどのぐらい画像の質が変化するのか確かめてみましょう。『Seed値』という画像のランダムさを制御する乱数を固定して比較します。

　Seed値を固定するには、生成された画像の下部の画像の情報エリアから『Seed』という項目を探し、その数値を［Generate］タブの［Seed］の欄に貼り付けます。これにより、プロンプトや画像サイズなどの条件が全て同じであれば全くほとんど画像が生成されることになります。

生成された画像の下部の画像の情報エリアから『Seed』という項目を探す

［Seed］欄に固定の値を入力する

　それでは、プロンプトを変えて生成してみましょう。

プロンプト

1girl

プロンプト「1girl」で生成した画像

プロンプト

masterpiece, best quality, high quality, ultra detailed,1girl

ネガティブプロンプト

worst quality, low quality, bad anatomy, bad hands

クオリティプロンプトを足して生成した画像

　女の子がはっきりと生成されて光の雰囲気もわかりやすくなり、高品質な画像になったことがわかります。

　職場で不適切な画像「NSFW」なども有効です。まとめると

『worst quality, normal quality, bad finger, cross finger, ugly, NSFW』

といったワードを並べて、テキストとして保存しておくと良いでしょう。

　「A1111」の［Generate］ボタンの下に［🖌️］（Edit Styles）というボタンがあります。ここによく使うプロンプトとネガティブプロンプトをスタイルとして保存できます。

［🖌️］（Edit Styles）ボタンでよく使うプロンプトを保存

　今回はこれ以上の機能には触れませんが、 Seed値のように画像生成の細かいコントロールに必要な情報についてはこちらの書籍を参考にしてください。

広告に適したハイクオリティな画像を生成しよう

ハイクオリティな画像を生成するプロンプトがわかりましたが、広告のビジュアルを制作するとなると、『上品』、『ポップ』、『クール』などテーマに沿った画像に加えて、商品の購買やブランディングにつながる感覚に訴える画像、センスある画像が必須になります。つまりプロンプトにも繊細さが求められます。そこでここからは、いくつか広告の題材を決め、それぞれに適した雰囲気の画像を生成できるプロンプトを探っていきます。

　題材は広告として需要が多そうな、

おしゃれな高級レストラン
缶ビール
ドラマを感じさせる飲み物
若い女性向けのポップな眼鏡

の4つを取り上げます。それぞれの表現を深堀りしていきましょう。

重厚感のあるライティング

　先ほどのテーマのうち、

おしゃれな高級レストラン
ドラマを感じさせる飲み物
大人の女性向けの口紅

　このテーマの広告は大人をターゲットにした広告なので、メインビジュアルには重厚感のある画像が必要です。重厚感を演出するうえで大切な要素のひとつは、人物や被写体のライティングでしょう。まずはライティングを指定するプロンプトを指定してみます。

　具体的なプロンプトの例としては、

cinematic lighting
professional lighting
（天候、時間帯）lighting

が挙げられます。

　『口紅の広告のメインビジュアル』を想定して、これらのプロンプトを指定したものと指定していないもので比較してみましょう。

プロンプト

masterpiece, best quality, face focus, 1girl, lip, red lip, white skin（ライティング指定なし）

ネガティブプロンプト

worst quality, best quality, normal quality, bad anatomy, bad hands

ライティングのプロンプトなしの画像

プロンプト

masterpiece, best quality,cinematic lighting, professional lighting,face focus, 1girl, lip, red lip, white skin

ネガティブプロンプト

worst quality, best quality, normal quality, bad anatomy, bad hands

ライティングのプロンプトありの画像

　モデルや全体的な雰囲気の深み、重厚感や瑞々しさが全く違うことがわかるでしょうか。

　またここに『intricate composition』（直訳すると『複雑な構図』）を追加すると、さらにリアルな質感を演出することができます。これは AICU media 編集部の知山が ChatGPT にプロンプトを考えてもらっている時に発見したプロンプトなので、他には出回っていないレア情報だと思われます。皆さんぜひ試してみてください。

『intricate composition』を加えた画像

　肌の質感が深まりましたね！

　この調子で、おしゃれな高級レストラン、缶ビールもライティングを指定して生成してみましょう。またプロンプトを書くときは、クオリティプロンプト→ライティング、雰囲気→人物、被写体→背景の順に書くとバランスがとりやすいです。

高級レストラン

プロンプト

masterpiece, best quality, cinematic lighting,professional lighting, intricate composition, face focus, 1girl, dinner, pink lip, dinner, wine, smiling, black formal dress, long sleeves, sophisticated restaurant

ネガティブプロンプト

worst quality, best quality, normal quality, bad anatomy, bad hands

おしゃれな高級レストランの画像

ドラマ感のある小芝居

プロンプト

masterpiece, best quality, cinematic lighting, professional lighting, intricate composition, face focus, 1girl, drinking beer, can, at home, night

ネガティブプロンプト

worst quality, best quality, normal quality, bad anatomy, bad hands

ビールを飲んでいる画像

　深みのある大人っぽい画像が生成できました。口元が気に入らないときは、image to image (img2img)でインペイントします。ついでにビールではなくジュースに置き換えてみます。

「人生の酸っぱさ、味わってる？」

img2imgでインペイントした画像

ポップな雰囲気を出す

　次に先ほどとは一風変わって、ポップでカジュアルな雰囲気の画像を生成してみましょう。テーマは『若い女性向けの眼鏡』です。

　今回は3人の女の子を生成してみます。

　『cinematic lighting, intricate composition』を今回も入れつつも、様々な色の小物や髪色を指定することで、深みを出しつつもポップな色が目立つように仕上げていきます。

　複雑なプロンプトになりましたが、ここまできた皆さんなら読み解けるはず！

プロンプト

masterpiece, best quality,cinematic lighting, intricate composition, looking at viewer, 2girls, kissing cheek, whispering, index finger to index finger raised,looking at another, earrings, short blonde hair, eyewear, purple beret, summer muffler, green brown contact lens, catch light on the eyes, pink lips, indigo fingernails, >BREAK<looking at viewer, earrings, indigo short bob cut, round glasses, pink beret, blue brown contact lens, catch light on the eyes, pink lips, indigo fingernails

　また『>BREAK<』という大文字の単語を挿入することで、それ以前のトークンというプロンプトのまとまりを打ち切ることができ、『>BREAK<』以降のプロンプトが反映されやすくなります。「A1111」の機能拡張によって明確に指定することもできます。

⇨日本人が開発した「Regional Prompter」がなかなかすごい！: https://note.com/aicu/n/n832941df99c5

【レベルアップ】構図を自由自在に操るプロンプト

　ここまでで『cinematic lighting』などの全体的な雰囲気を出すプロンプトを紹介し、ビジュアルの空気感を調節してきましたが、さらにレベルアップした内容として、カメラや被写体のレイアウト、構図を指定するプロンプトを紹介します。

　ここで使用したモデルは「Beautiful Realistic V60」です。PleaseBanKaiさんが制作したモデルで、こちらもアジア系女性の画像の生成が得意なモデルになっています。ライセンスはこちらです。

　それでは、様々な構図のプロンプトと見本画像を見ていきましょう。

　今回使用した主なプロンプトは『Cinematic Photo of a beautiful fasion model wearing white shirt, ＜構図名＞,brown medium hair, smiling, looking at viewer,upper body』です（構図により細部を調節しています）。

from above（上から撮影）

from below（下から撮影）

from side（横から撮影）

from behind（後ろから撮影）

full body（全身）

dutch angle（斜めに撮影）

looking back（振り向く）

face close-up（顔のアップ）

　このようにプロンプトで構図を指定することで、様々な構図やポーズの画像を生成することができます。作例を見て、何かアイデアが湧いてきたのではないでしょうか。

　他にもポーズや髪型などのプロンプトの作例一覧をこちらの書籍で確認することができます。バリエーションが欲しい方は要チェックです。

『画像生成AI　Stable Diffusion スタートガイド』に掲載している作例

画像を編集し、広告にしよう

　ここまで画像が生成できたら、あとは文字を挿入して広告にすれば完成です。「Photoshop」、「PowerPoint」、「ペイント」、Webブラウザーだけで使う場合は「Canva」、「Adobe Express」などの画像編集ツールで画像の位置などを調節したり、文字を配置したりしてみましょう。動画の場合は「Microsoft Clipchamp」が使えます。

加工前

加工後（使用フォント：XANO明朝）

加工前

加工後（使用フォント：モボ、廻想体）

Photoshopでほんの少しトーン調整（Ctrl+M）するとさらにいい感じに

本記事のカバーアートの完成です

　画像生成AIを使って、広告をつくることができました！趣味や仕事での掲示物、実際の広告の案出しなど、様々な場面で応用してみてください。プロンプトだけで、かなりの画質の向上も見込めますし、AI画像生成でファッションや表現のセンスを磨くチャンスです。

まとめ

　以上、GPUなしでもできる画像生成AI Stable Diffusion 「AUTOMATIC1111 WebUI」のはじめかたについて紹介しました。

　より深めていきたい方々には3月29日に発売されたばかりの書籍「画像生成AI Stable Diffusion スタートガイド」がおすすめです。今回は実写系広告画像の実例で紹介しましたが、本書はプロフェッショナルなイラストレーションを指向する方にもおすすめです。今回解説しきれなかったimg2img（画像から画像を生成する）やControlNet、LoRA学習、様々なパラメーターの解説や微調整、プロのイラストレーターの製作技術解説が凝縮された書籍です。ぜひ試し読みしてみてください！

　また本書の著者が直接、Google Colabを活用したオンラインのワークショップも実施しています。

　次回の開催は2024年5月15日。

AICU mediaのイベント・技術情報 - TECH PLAY［テックプレイ］

⇨【Stable Diffusion でデルタもん LoRA を作ろう！】「画像生成AI Stable Diffusion スタートガイド」 #SD黄色本公式ワークショップ｜IT勉強会・イベントならTECH PLAY［テックプレイ］: https://techplay.jp/event/942272

　個人やホビーだけでなく、広告制作会社や企業の映像制作といったプロフェッショナルの方々、そして会社の枠を超えてホビーの延長で現場での生成AIの常識や開発速度、リスクや運用テクニックなどを共有する良い学びの場になっています。ChatGPTなどのLLMばかりが注目される生成AIですが、このような機会でみなさんが画像生成AIの最先端を自分で使いこなし、価値あるクリエイティブなAIライフを送ることを楽しみにしております。