生成AIストリーム

高品質なAI画像を大量生産！ Stability AIのAPIをWindowsのバッチファイルで呼び出せるようにしてみた

しらいはかせ

2024年9月6日 10:39

　画像生成AIで作った画像を実際に商用として使う場合、クオリティの担保や必要要件との合致を図るために、膨大な数の画像を生成する必要があります。そうなると速度の面でローカルPCでの生成は非現実的です。必然的にAPI経由でクラウドを使って生成することになります。

　でも、APIってどうやって使えばいいのか、わからない方もいるでしょう。

画像生成用バッチファイル
　►バッチファイルをダウンロード
　►設定ファイルを開いてAPIキーを設定
バッチファイルを実行して画像生成！
ライセンスから見るAIの新たな可能性

画像生成用バッチファイル

　ここでは「窓の杜」らしく、Windowsのバッチファイルだけで画像生成ができるサンプルを紹介します。利用するにはStability AIのプラットフォームを利用するAPIキーを入手してください。無料で初回利用できますので、まだ持ってない人はここにアクセスしてAPIキーを取得してみてください。

⇨Stability AI - Developer Platform: https://platform.stability.ai/account/keys

Stability AIのAPIキーを入手

　「sk-….」で始まるAPIキーを取得したら、次のステップに進みます。

バッチファイルをダウンロード

　筆者らが開発したダウンロードして使えるバッチファイルを配布しています。ダウンロードしたら解凍して中身を確認してください。

SD3_SIC_Image_Creator

　詳細は「README」に記載してありますが、これはStable Diffusion 3.0 API Image Creator/Stable Image Core APIをつかった画像生成バッチです。

Stable Diffusion 3.0 API Image Creatorでできること

同じプロンプトでの連続画像生成
文字も含めた生成
「SD3_setting.txt」が設定ファイルです
設定可能な項目]はプロンプト、ネガティブプロンプト、アスペクト比(16:9/1:1/21:9/2:3/3:2/4:5/5:4/9:16/9:21)、ファイルフォーマット(JPEG/PNG/WEBP)、生成枚数
「SD3_IMG_Creator.bat」で起動します

Stable Image Core API Image Creatorでできること

同じプロンプトで様々なプリセットスタイルの画像生成
SIC_setting.txt が設定ファイルです
[設定可能な項目]プロンプト、ネガティブプロンプト、アスペクト比(16:9/1:1/21:9/2:3/3:2/4:5/5:4/9:16/9:21)、ファイルフォーマット(jpeg/png/webp)、生成スタイルとサイクル数（生成サイクル数x17スタイルが生成されます）
「SIC_IMG_Creator.bat」で起動します

設定ファイルを開いてAPIキーを設定

生成する前にAPIキーを設定します。

「SIC_setting.txt」内の「STABILITY_API_KEY=」の後にAPIキーをペーストする

　「SIC_setting.txt」という名前のテキストファイルがあるのでメモ帳で開いて、「STABILITY_API_KEY=」と書かれている部分の後ろに先ほどコピーしたAPIキーを貼り付けて保存します。

　これだけで画像を大量に生成できるようになりました。

　ちなみに、「Stable Diffusion 3.0 API Image Creator」は1枚生成する旅に6.5クレジット、日本円にして約9.49円（9月3日現在のレート、以下同）のコストがかかります。「Stable Image Core API Image Creator」のコストは、1サイクル（17枚）の生成で51クレジット、日本円にして約74.46円です。

バッチファイルを実行して画像生成！

　いよいよバッチファイルを実行しましょう。ここでは「SIC_IMG_Creator.bat」を実行します。初回はスマートスクリーンの確認画面が出ますが、危険なバッチファイルではありませんので、［詳細情報］を押すと現れる［実行］ボタンクリックしてください。

スマートスクリーンの確認画面

　起動するとこのようなコマンドプロンプト画面が現れます。

起動時の画面

　ここで生成する画像のプロンプトや枚数を確認できます。「y」と入力してEnterキーを押下すると生成が開始されます。

　17種類のスタイル（3d-model, analog-film, anime, cinematic, comic-book, digital-art, enhance, fantasy-art, isometric, line-art, low-poly, modeling-compound, neon-punk, origami, photographic, pixel-art, tile-texture）で生成が完了するまで約3分です。

17種類のスタイルで画像を生成

　生成された画像は「SIC_Image」というフォルダーに格納されています。

「Yasuke: The true story of the legendary African Samurai」を生成した例

「Beautiful Japanese men and women in yukata look happy watching fireworks」

　全てのスタイルで大量に画像を生成して評価してみましたのでご参考ください。

⇨Stable Diffusionの公式API、1,800枚の画像を生成して比較検証してみた(動画あり)。: https://ja.aicu.ai/sd3api1800/
⇨Comparing Stable Diffusion 3 Large, Ultra and SD3M - draft version - YouTube: https://www.youtube.com/watch?v=vk0iTE52RcQ

ライセンスから見るAIの新たな可能性

　さて、バッチファイルを使って商用利用も可能なモデルによる次世代の画像生成を体験していただきました。非常に高品質で高速（1枚5〜10秒程度）です。解説では割愛しましたが、利用の際には「利用規約」に合意する必要があります。使用者にはその規約に沿った使用をする責任があります。このバッチファイルおよびAPIは商用利用可能です。Stability AIの商用ライセンスはAPIの利用許諾に準じます。商用利用、カスタマイズにつきましてはsai@aicu.aiまでお問い合わせください。

　さらに「Stable Diffusion」を開発するStability AIのAPIリリースノートには以下のような記載があります。

当社のすべての API には、入力フィルタリング、入力画像と生成されたコンテンツの NSFW フィルタリング、Thorn による既知の CSAM コンテンツフィルタリング、および C2PA 署名のための標準的な安全機能が付属しています
Stability AIのAPIリリースノートより引用

　NSFWとは「Not safe for work」つまり「職場でふさわしくない」の略。CSAMは、Child Sexual Abuse Material（児童性的虐待のコンテンツ）の略で、これには、露骨な性的行為に関与する未成年者を扱った写真、動画、コンピュータ生成による画像などのあらゆる映像描写、さらに児童の虐待や搾取が該当します。Thornはテクノロジーで児童性的虐待と戦う非営利団体です。Googleなども同様の取り組みを行っており、時々「Google Driveに置いておいた子供の写真が消えた」といった話題で耳にすることがあると思います。

⇨Google：児童性的虐待のオンラインコンテンツ撲滅に対する Google の取り組みに関するよくある質問: https://support.google.com/transparencyreport/answer/10330933?hl=ja
⇨Thornについて: https://www.thorn.org/about/our-impact/

　C2PAはコンテンツの来歴や信憑性に関する技術標準を開発する「Coalition for Content Provenance and Authenticity」というコミュニティです。AdobeやOpenAIといったIT企業以外にも、日本のカメラメーカーやニュースメディアが参画して、コンテンツの真贋や生成画像の学習元など来歴を画像に埋め込む技術を標準化しています。