いまからでも遅くない!ツールとして使うAI画像生成
第3回
やっぱり萌えイラストを錬成したい ~あなたが欲しい絵を生成できるサービスはこれだ!
「Midjourney」「にじジャーニー」「TrinArt」「Memeplex」での萌えイラスト生成方法
2023年3月16日 09:00
はじめに
「Stable Diffusion」をはじめとするAI画像生成は、最近非常に注目を集めている分野です。
毎日のように、ものすごいスピードで進化を遂げているAI画像生成分野。本連載では「しらいはかせ」こと、書籍『AIとコラボして神絵師になる 論文から読み解く「Stable Diffusion」』の著者・白井暁彦氏が今後身近になっていくであろう「テキストによる画像生成AI」の世界を読者のみなさんに わかりやすく、ゆるめに伝える連載 です。誰にでも使える、楽しめるツールとしてのAI画像生成についてお届けしています。
やっぱり萌えイラストを描きたい…でもどこからはじめたら…?
前回の記事「プロンプトすら不要! スマホとAI画像生成だけで美麗なイラストを描けるアプリ」では、2023年1月時点での「Stable Diffusion」を利用した主要なAI画像生成環境をリストしてみました。今回は「やっぱり萌えイラストをAI生成したい……どこからはじめるか占うチャート」として、以下のようなオススメチャートを作ってみました。
簡単に解説すると、「高火力なGPU搭載のWindowsPCを持っているか?」が大きな分水嶺になります。本体メモリとSSD、そしてGPUのメモリは「あればあるだけ良い」のですが、具体的には「VRAMが8GB未満か、それ以上か」といったラインが自PCで動かす場合の判断基準になります。GPUブランドだとNVIDIAだと1060以降、Radeonだと5系以降が対象になります(詳しく調べたい方はこちらをご参照ください)。順を追って解説していきます。
現在世界中に様々な「Stable Diffusion」を使って画像生成ができるモデルが存在しています。インターネット上のありとあらゆる画像を学習しているため、一部の配布されているモデルは「Danbooru」に代表されるインターネット上のイラストに自由にタグ付けができるサイトからも学習しています。「Danbooru」は完全に悪意があるサイトというわけではないのですが、そのサイトの著作権解決は国や文化によって問題があるかもしれません。
例えば「アップロードされた画像が必ず著作者本人によるものであるか?」もしくはクリエイティブ・コモンズCC0のように「いかなる著作権も主張しない」とされたものであるかなどは全く保証されていないということになります。ゆえに「自分が描いた画像がここに置かれている!」という剽窃の疑いもよく聞かれます。加えて「Danbooru」は『ありとあらゆる性的嗜好』に対してタグ付けしているため、NSFW(Not safe for work、 職場で見ないほうがいい)という属性を持った画像が多い点も特徴ではあります。
「Waifu-Diffusion」や「NovelAI」がそのようなサイトを積極的に学習している疑いをかけられているモデルの代表です。具体的には「イラストレーターから画像を盗んでいる」というレピュテーション(評判)攻撃の標的になっていました。そのNovelAI自身がハッキング被害にあった声明を出したり、その盗まれたモデルである可能性があるモデルが流出したり、そのモデルにマルウェアが仕掛けられていたりと、世はまさに「生成AI大海賊時代」のような様相になっております。
非常に高品質で味のある生成モデルを持つ「NovelAI」自身は魅力ですし、「Waifu-Diffusion」も非常に貪欲に新たな画風や表現能力を獲得しています。しかし、全てのAI画像生成が必ずしも海賊行為を容認しているわけではなく、完全にクリーンな独自のモデルを目指しているサービスやクリエイターも存在します。このような「完全にクリーンなAI画像生成を目指そう」という活動をされている方々は先端オブ先端かもしれません。
逆に古いモデルやそのマージモデルから出所不明な画像について、明確な剽窃の証拠を判定することは容易ではありません。なお自分が著作権を保有する画像がモデルに取り込まれているかどうか心配な方は、学習元になったLAION-5Bという58億の画像とALTタグのセットから、「HAVE I BEEN TRAINED」というサービスを使って自分のイラストが「LAION-5B」(「Stable Diffusion」で利用された学習用モデル)に登録済み画像かどうかを検索したり、LAIONプロジェクトに直接学習対象から外す申請をすることもできます。
筆者自身も古くからマンガ画像生成の国際会議などで、「Danbooru」を使用した海外の研究者の論文などを見かけることがありました。例えば「Kaggle」のような企業・政府・教育等の機関と共に機械学習やデータサイエンスに携わっているエンジニアのプラットフォームを「Danbooru」で検索してみると、「Danbooru2017」というデータセットが見つかります。これは2005年5月24日から2017年12月31日にDanbooruにアップロードされた画像をすべて収蔵して、クラウドソーシングによってタグ付けされたもののようです。
「Danbooru」自体がAPIを用意しており、このようなデータセットから、「DeeepDanbooru」のように「Danbooru」で使われるタグを逆に推定して、自身のプロンプトを改善するような技術や、著作者のオリジナリティを検索したり保証したりするような技術の開発にもつながるという見方もあります。しかし、仮に同意されていない著作物がアップロードされた側の心境としては(法的にも)扱いとして許容しがたい面があります。
日本の著作権はAIがネット上に置かれたデータを自動で学習することについては違法ではないという特殊性を持ちますが、国外の著作権(直訳するとauthor's rights)の多くは英語で「copyright」と書くように、複製する権利を定義しています。顕著な表れとしては「Danbooru」における「Copyright」タグは、いわゆる同人誌用語における「版権もの」の意味として扱われており、著作者の複製権を保護するという視点は一切ないようです。
本連載ではこのような「一線を越えた」技術も(NSFWでない限りは)文化の発展や引用の範囲で(参考:文化庁)扱っていますが、企業や商業として利用した場合はそれなりのリスクがある可能性も明記しておきます。(書籍の方で詳しく解説していますが)日本の法律は世界でもAIの学習にとっては有利になる改正著作権法が存在します。一方で世界のコピーライトに関わる法律、判決、判例において、AI画像生成のモデルの生成やその使用者や生成物に著作権が認められるかどうか?については、最終的な判断は難しいという状況でもあります。
AI画像生成の具体的な使い方
今回は初心者でも使いやすく萌え絵を生成するのに適したツールの、具体的な使い方を解説します。
「MidJourney」と「にじジャーニー」
「DALL-E」以降のAI画像生成に旋風を巻き起こしたのが「MidJourney」、日本風のアニメーションの生成に特化したのが「にじジャーニー」です。双方のサブスクリプションモデルは共通になっています。「Discord」のインターフェイスのみで利用できるので、「Discord」になれた人にはオススメです。スマホ版・PC版アプリの「Discord」でもブラウザー版でも利用できます。使い方は簡単で、「#image-generation」というチャネルで「/imagine」に続けて、生成したいプロンプトを投げればOKです。
「MidJourney」や「にじジャーニー」で画像を生成するには、まずチャットの入力欄に『/imagine』と入力して半角スペースを打ちます。すると『prompt:』と表示されてプロンプトの入力モードになります。ここでは 『/imagine prompt:』に続けて『Shimokita shy girl pink hair hoody with guitar sweating』としてみました。これは日本語で『下北 シャイガール ピンクヘア パーカー ギター 発汗』とした例です。
英語が苦手な方はGoogle翻訳やDeepLのような翻訳を使っていただいても問題ありませんし、実は日本語でも大丈夫です。
数秒で画像が生成され、V1~V4のボタンを押すとバリエーションの異なる画像、U1~U4のボタンを押すと、高解像度な画像が生成されます。AI画像生成は「指が苦手」(そもそも状態の次元が多くワードでの指定が難しい)と言われるのですが、ここでは比較的まともな指が生成されていて雰囲気もいい右下、つまりV4を推してみました。バリエーションの異なる画像が生成されます。
この間に他の人も「imagine」コマンドによる生成を使っているのが見えるので、性癖やプロンプトを学ぶのに良いと思います。
プロンプトに自由度がなさそうな「にじジャーニー」ですが、実は裏コマンドがたくさんあります。例えば「こういう絵を作りたくない」という指令を明示的に指定するネガティブプロンプトは『--no』で指定できます。たとえば上の画像に『フードをかぶって、顔を赤く、ケーブルを描きたくない』と指定してみます。
Shimokita shy girl pink hair hooded with guitar sweating face red cheek --no cable
邪魔なケーブルは現れなくなりましたが、『顔は赤く』で、なんだか酔っ払いみたいになってしまったのでさらにネガティブワードを入れたり、余計な指定を外したりしていきます。
Shimokita shy girl pink hair hooded with guitar sweating face red cheek --no cable fused fingers, fused limb ,bad hands
今回はこの辺で完成としておきましょう。ちょっといい雰囲気じゃありませんか?
AI画像生成に限らず、イラストレーションを向上させるには背景にあるストーリーを引き出すのが大事です。もし興味があれば拙著の表紙でコラボさせていただいたイラストレーター852話さんによる『Images Midjourney / Stable DiffusionによるAIアートコレクション』(852話・著)や、『あなたの絵に物語性を与える方法』(加藤オズワルド・著)という本をお勧めします(3月13日の新刊です)。
以下いくつかプロンプトと作例を紹介しておきます。にじジャーニーは日本の人気アニメ、例えば「Dragon Ball」や「One Piece」や登場人物の『Son Goku』、『Naruto』、『Deku』などをアルファベットで打ち込むと、かなり強く反応します。商標を含むキャラクターを卑猥な使い方や贋作を作って公開するような使い方をすると、(著作権的や個人で楽しむ画像生成として問題がなさそうでも)「Stable Diffusion』のライセンス違反や商標侵害などになる可能性はあり、生成者の責任を問われるので露骨なキャラクター侵害ははお勧めしません。あくまで世界観を楽しむような使い方が良いかと思います。
Houseki no kuni, miku in the snow forest, 8k, highest resolution, hd, detaild, gemstone cyan long pigtail hair --ar 2:3
最後の『--ar 2:3』はアスペクト比つまり縦横比が2:3で縦長という指定です。
もちろんイケメン男性も白黒の漫画風画像も生成できます。
A beautiful boy manga author is talking with a girl in a cafe
「/imagine」以外のコマンドのリストはこちらにあります。
解像度やモデルの特徴を指定するパラメータリストはこちら。
他にも、メッセージを長押し→アプリでシード値を得たり、アップロードした画像に対してimage2imageを設定することもできます。
「にじジャーニー」はいわゆる萌え絵を錬成する上で比較的初心者に使いやすく、
- 日本語が使える
- 人気アニメ作品が得意
- 日本の漫画やアニメに近い画風を出しやすい
- 他の人のプロンプトを学べる
- 高度な設定も可能
という特徴があり、月額10ドルという手軽さもお勧めです。
「AIのべりすと」
続いて、「AIのべりすと」のお絵描き生成機能を簡単に紹介します。「AIのべりすと」はゲームクリエイターのSta氏が開発し、「Google TPU Research Cloud」というGoogleの計算資源の支援を受けて完成した小説生成AIです。日本語で史上最大の73億/200億パラメータ&総1.5テラバイトのコーパス(テキストを構造化したデータセット)からフルスクラッチで訓練されています。
メールアドレス登録で10ルミナ使え、1画像生成で0.3ルミナ消費します。オプションは多様すぎて試しているだけでも楽しいのですが、まずはその実力を2つのモデル「とりん」と「でりだ」で比較してみます。プロンプトは『部屋の中にいるミク』という非常に短いものです。
続いて『綿雪が降る林の中にいる雪のように髪が白いミク、ウサギのコスプレ』を「スーパーでりだ』と「スーパーとりん」で比較してみます。
「AIのべりすと」の価格
値段はボイジャー会員が970円+税/月、ブンゴウ会員が1,650円+税/月、プラチナ会員が2,980円+税/月となっています。ちょっとお高い印象があるかもしれませんが、MidJourneyと違って占有サーバーで、短いプロンプトでもハイクオリティな出力を、幅広いオプションや機能とともに探求できるのが特徴です。
さらに2023年2月14日から文豪会員「やみおとめ20B V4」が登場しています。この20Bというのは200億パラメータの日本語を学んでいるということで(「とりん」と「でりだ」は約73億)詩や短歌なども生成できます(画像生成には使われていない)。画像生成だけではなく、ゲームやキャラクターブック、音声合成との連携機能なども開発されています。「ChatGPT」とは全く異なる小説生成AIの世界を楽しんで見たい人は是非、遊んでみてください。
Memeplex
最後に「Memeplex」を紹介します。日本を代表する実業家でもあるプログラマーの清水亮氏が開発した、基本無料で利用できる画像生成AIです(有料プランもあります)。特に前提知識なく、幅広い画像生成AIモデルや最新の実験成果が利用できるのが特徴です。
「MEMEPLEX」も「MidJourney」のような「他の人が作っているものがみえる」ギャラリー型の画像生成です。特徴としては、通常はプロンプトで工夫しなければならない、画風や作風、スタイルをプルダウンリストで選択できること(浮世絵風、写真、ダリ風といった感じ)多様なモデルが取り込まれており、萌え絵以外の写実系のモデルもWebブラウザーだけで利用できる点です。
ここではあえて『a girl in a room』や『miku in a room』という、プロンプトとしては抽象的すぎるプロンプトを与え、[画風]を「水彩画」、[スタイル]を「ハイファンタジー風」、作風を「アルフォンスミュシャ風」で[翻訳不要]チェックボックスをON、[モデル]に「OpenJourney」を選んで[作画リクエスト]ボタンを押しました。
モデルを「Counterfeit-V2.0」にしてみます。
公開ページを見ると内部では以下のようなプロンプトに変換されている事がわかります。
seed:128406491068 a water color painting of miku in a room in high fantasy style by Alfons Maria Mucha ||| inaccurate limb , lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, blurry by Sakura(Counterfeit-V2.0)
『|||』以降はどうやら補助的に自動設定されたネガティブプロンプトで、『inaccurate limb』は「不正確な四肢」という意味で、不気味な手足や指が生成されないためのnegative promptが自動付与されています。こういったプロンプトエンジニアリングの勉強ができるのも「Memeplex」の良いところです。
画像生成モデルについてはときどき新しいものが追加されているので、試してみて自分の好みに合ったものを選ぶと良いと思います。
なお、画像生成モデルはAI画像生成においては「脳のようなもの」で、学習済みの知識と機能がセットになった巨大なファイルです。「Stable Diffusion 2.0」が誰でも入手できる状態になった2022年11月24日以降、爆発的に増えており、まとめサイトのような情報は無数にあります。またかつては機能していたのにもかかわらず、高速に増えすぎてメンテができていない状態の情報サイトも多くあります。新しいモデルのマージや生成は、次回紹介する「NMKD Stable Diffusion」で比較的簡単に生成できてしまうからかもしれません。
「Memeplex」は、画像から画像を生成するimg2imgのためのUIなども装備されている非常に強力なサービスといえます。
完全無料版だけでなく、サブスクリプションの価格 も覗いてみてください。1カ月1,200円〜で、カスタム学習モデルの生成ができます。
開発者本人によるYouTube動画解説も大変興味深いです
どうしても無料でやりたい!そんなあなたは…
ここまで紹介して「なんだやっぱり生成AIって覚えなきゃいけない事がたくさんあるし、お金がかかるんじゃないか…」と思った方もいらっしゃると思います。AI画像生成は開発費用だけでなく、ネットワークや高火力大容量VRAM搭載のGPUといった計算機資源が必要で、「完全無料で利用できるサービス」となると広告や個人情報の提供など、何か裏があると思って良いかと思います。
もちろん、プロンプトの検索に加えて生成もできる「Lexica」もあります。さらに、モデルが無料でダウンロードできる「Hugging Face」には以下のようなありとあらゆるモデルが集まっています。
- 「Waifu-Diffusion」
- 「Counterfeit」
- 「Trinart」
- 「CLIP」:「Stable Diffusion」や「Stable Diffusion」の根幹となっている
- 「Transformers」:「CLIP」の根幹
- 「ChatGPT」:OpenAI社の自然言語処理・大規模言語モデル(LLM)
- 「Wisper」:OpenAI社の音声テキスト変換AI
このモデルを自分のPCにダウンロードしてPythonを使うもよし、「Google Colab」を使ってGoogleの計算資源を借りるもよし(無料でも結構いけます)、「NMKD Stable Diffusion」や 「Automatic1111」を使ったWeb UIを使うもよし。さらに最近では「ControlNet」の登場で、プロンプトではなく画像や姿勢から直接描画する方法も使えるようになっています。
AI画像生成を機会にPythonを覚えて、機械学習と生成AIの沼にハマってみるのも良いかもしれませんね(そしてやっぱり高火力なGPUが欲しくなるはずです……!)。
イベント告知
ちょうど3月12日にこちらの「AIアートグランプリ」の最終審査会(2023年3月12日(日)15時から)に出演させていただきました。
日本を代表するCG研究者・メディアアーティストの河口洋一郎先生をはじめ、著名な作家さんたちが審査員をつとめており、数百の作品が集まっています。詳細は窓の杜で記事が掲載されるようです。
今回はプロンプトの改善については扱いませんでしたが、みんなを驚かせるようなプロンプトや作品のヒントが見つかるかもしれませんね。
また次回の連載でお会いしましょう!合言葉はマスターピース!