生成AIストリーム

1時間ほどで漫画風の絵コンテ生成アプリを制作してみた ~そして来るべき未来を予感した

「Dify」と「Stability AI API」でAIアプリを爆速錬成

1時間ほどで漫画風の絵コンテ生成アプリを制作してみた

 画像生成AIが誰でも使えるようになってだいぶ時間が経過し、一般化、産業化が進んでいます。先日はAmazon Web Service(AWS)のAIフルマネージドAPIホスティングサービス「Amazon Bedrock」で、Stability AIの画像生成AIモデル「Stable Image Ultra」、「Stable Diffusion 3 Large」、「Stable Image Core」が利用できるようになりました。時代はAI活用の方向へ加速しています。

 このような流れの中で、我々もAIを使ってもっと楽しく、もっと創造的になっていけるのではないでしょうか? 今回はAIを使ったアプリ制作を通じて感じた未来について語りたいと思います。

多様なモデルとAPI

 従来はゲーミングPCのようなGPU搭載PCを使って利用する「Stable Diffusion」(SD1.5)や「Stable Diffusion XL」(SDXL)がオープンなモデルでもあることから、研究開発からホビー用途を中心に親しまれてきました。そのような「ローカルPC」や「GPU搭載サーバー」によるオウンホストのオープンモデルと並行して、GPU非搭載PCやモバイルでも安定して高速高品質に利用できるアプリケーション開発インタフェース(API)も並列して使われるようになってきています。

 例えば商用利用可能な画像生成AIとしてStability AIは最新の「Stable Diffusion 3(SD3)」は、オープンモデルである「Stable Diffusion 3 Medium(SD3M)」と並行で、「API」から利用する、より高品質な「Stable Image Ultra」などが提供しています。このSD3世代のAPIによる画質については作品コンテストやユーザーコミュニティなどの盛り上がりで、どんどん素晴らしいテクニックが開拓されています。むしろ「これから広く知られていく段階」にあるのかもしれません。

 LLM分野でもAPIの利用も進んでいます。例えば、ソフトバンクが提携している「Perplexity」(公式略称「パープレ」)は、検索AIと同じインタフェイスを通して、Playground AI、DALL-E、SDXLなどを使用して、1日に最大50件の画像化機能が利用できます。月額3,000円の価値の中に、各社のAPI使用料を埋め込んでいく戦略です。

 筆者もLINEチャットボット「全力肯定彼氏くん」にStability AIの高品質な画像生成機能を埋め込んでみました。また、Google Apps Scriptを使って「Google スライド」で簡単にいい感じの画像を多種生成してくれるツール「SAIAD Generator」も公開しています。

 チャットやMidJourneyのような対話的な画像生成は「ワンショットで何となくいい絵が出ればいい」のですが、一方でプロ用途では「同じプロンプトで、たくさんの画像を一気に作って評価する」といった使われ方をします。そのようなときに商用で利用できるAPIはとても便利です。

APIとDifyで更に加速:絵コンテツールが10分で

 上記のように『同じコンセプトのプロンプトでたくさん生成して、画風を比較したり、運に頼らず、品質高く良い画像を選びた』といった要求はプロの現場では多く生まれます。これ以外にもAPIは多様なアプリケーション開発に役立ちます。前述の通り『API』とは『アプリケーション開発インタフェイス』の略です。本来APIはアプリケーション開発のためにあります。

 そこで筆者は、「漫画風の絵コンテを作ってくれるAIアプリ」を作りました。制作にかかった時間はなんと1時間ほど!

「漫画風の絵コンテを作ってくれるAIアプリ」が生成した絵コンテ

「MangaGeneratorSAI」

※編集部注:筆者およびStability AIのご厚意で、無料で遊べるようにしております(期間限定になるかもしれません)。

「10分で作った漫画ジェネレーターSAI」

「MangaGeneratorSAI」(AICU編集部版)

 使い方は簡単です。『フランスでオリンピックが始まるんだって』、『米国株安かと思ったら今度は円高かよ』、『窓の杜で「生成AIストリーム」という連載を描く筆者を応援する漫画』といった『雑な1行』から、最新の話題を踏まえた漫画原作と絵コンテ制作を手伝ってもらえるツールです。

 「Dify」の「エージェント」で作成したこの絵コンテツールですが、画像生成は先日バッチファイルで紹介した「Stable Image Core」や「Stable Diffusion 3」、「Stable Diffusion Turbo」が選べます。「Dify」上のプロンプトやAPIへのパラメーターによって高品質にしたり、スタイルを選んだりすることも可能です。

「Stable Image Core」や「Stable Diffusion 3」、「Stable Diffusion Turbo」が選べる

 もちろんOpenAIの「GPTs」や「DALL-E」でもこのようなチャットボットをつくることができますが、公開してもChatGPT Plusのユーザーしか使えませんし、「Dify」内の「Google Search API」と「Stability AI Platform API」で10分ほどのノーコード開発で実現できてしまうこのスピード感をぜひ皆さんにも味わっていただきたいです。

 以下は『「Stable Diffusion 3」以降の画像生成AIはAPIとコミュニティ。次世代の使いこなしへ』という原稿のタイトルを入れてみた例です。

 まずはGoogle 検索を使って素案を3つ提案してくれます。裏では「GPT-4o mini」が再帰的に動いていますが、あまり面白くない話になる場合は、対話的にツッコミを入れながら改善していくことができます。

素案を3つ提案
出来上がった絵コンテ

起:生徒会室。部屋にはAIに関するポスターが並ぶ。コト先輩がホワイトボードで新しいAI技術について説明している。

ルゥくん: 「このAI技術、すごい可能性があるんだよ!」

コト先輩:「ほんとに?どんなことができるの?」

転: ちびデルタが突然「未来が変わってしまうでる……」とつぶやく。

ちびデルタの発言が場を静める一瞬

結: コト先輩が笑い、ルゥくんが心配しながらツッコミを入れるシーン状況描写: ちびデルタの発言が予想外で、コト先輩とルゥくんは驚きの表情を隠せない。

コト先輩: 「えっ、それはどういうこと?」

ルゥくん: 「ちびデルタの言っている意味は…?」

結:静けさが戻ってきた後、ちびデルタが自信満々に発言する。

ちびデルタ: 「それは来月リリースされる機能でる!」

ルゥくん: 「それは言っちゃ駄目なやつでは…?」

コト先輩: 「さすがスーパーAIだね!」

このようにシナリオを生成した後で絵コンテが1枚ずつ生成される
よくわからない部分を指摘すれば詳細を教えてくれる
もちろん変更したシナリオに沿った絵コンテも生成できる

 このようなユーザー体験を自分で作れる上に、『キャラクター設定を固定』しながら『何度も作り直し』など、自分好みに統合した機能を開発することができました。なお「Dify」は、「Dify」上の公開だけでなく、自分のホストでの本番サービスとしてもデプロイ可能です。さらに外部APIとしての公開や、利用状況の取得などもでき、オープンソース化もしっかりとしており、多様な可能性を感じることができます。

コミュニティの力がさらに重要に

 今回のこのツールは、漫画や動画の企画を整理するための「絵コンテ作成ツール」の概念実証(Proof of Concept:PoC)として制作しました。そのため、高品位に画像生成する必要や、キャラクターも統一されている必要はなく、一連のユーザー体験、コストや反応速度などが最低限確認できればよいので、速度と手軽さ重視で作っています。しかし、「Stability AI API」本家には生成以外にも背景除去やスタイル学習のような魅力的なAPIが次々と提供されてきていますので、より高度なツールやサービスに育てていくこともできるかもしれません。

 従来であればこのような開発はGPU搭載の高価なサーバーを使って検証する必要がありましたが、最近はこのような高品質で高度なAI機能を利用できるAPIがありますので、個人レベルでも自分だけのオリジナルツールを自分で作っていくことができます。機能や品質面の拡充は開発者とユーザーの動向を見ながら段階的に検証することができます。

 さて、歴史をふまえて未来を観測すると、現在の生成AIは『Linuxにおける2000年頃』に似ているのかもしれません。ちょうど商用の RedHat Linuxと無料のLinuxが混在していた時代です。WindowsやMacOSがある中で、より魅力的で快適なアプリやツール、環境を自分たちで作り、その翻訳や解説、フィットする市場やケース、独自の使いこなしを展開して共有していく……。そういった『作り手のコミュニティ』の影響力はますます大きくなっていくと考えています。

 もちろん『これは生成AIを使っています』というカンバンを前面に出した『AI製品』もしばらくは続くと思います。「Flux.1」のような新しいモデルもたくさん出てきます。その切磋琢磨のなかで組込機器やゲーム機といった『当たり前の消費者向けプラットフォーム』として使われる例も多く出てくるでしょう。Linuxの歴史に例えると、UbuntuやChromebookのようなデスクトップOS、つまり画像生成技術がAI-OSの基盤として使われる時代がくるでしょうし、ビジネスプレゼンテーションのように固定料金でロイヤリティフリーで使いたいといった分野や、教育現場のように「無償で使えることにこそ意味がある」といった分野も明確になっていくでしょう。

 画像生成AIは今後、コミュニティやファンをどれだけ作っていけるか、が勝負になるでしょう。沢山の人に使われることで、『より当たり前になる』という方向性と、大量に高速に、高品質に多様な画像を作る技術として『よりプロフェッショナルに』という方向性が同時並行で進んでいくと予想します。その間にいるプロフェッショナルな作り手と消費者の中間、つまり一般消費者によるクリエイター・プロシューマー、例えば「同人作家」や「ツールの使い手」、DifyによるPoCアプリなど「プロトタイプ開発者」といった小規模だけど実力のあるインフルエンサーが、法律や倫理面を正しく理解しながら、『陽のあたる場所』を作り、新しいものづくり・コトづくりを進めていく時代に入っていると予感します。

 つまり便利な道具の使い手である窓の杜の読者さんたちが、今後の主人公でもあります! 陽のあたる場所にこそ『窓」は必要ですからね!