生成AIストリーム
「Stable Diffusion」の革命から2年、画像生成AIはAPIとコミュニティの時代へ
倫理問題の「当たり前化」のその先に
2024年8月2日 16:50
ご無沙汰しております。生成AIストリームは日々加速し続けていますが、最近、生成AI、特に画像生成AIの常識が変わりつつあることを感じています。
歴史から未来を見る
多くの方々は「生成AI」といえば、ChatGPTによるテキスト推論生成ができる大規模言語モデル(LLM)を思い浮かべるかもしれません。一方で生成AIにはテキストではなく画像を生成するAIもあります。ここで画像生成の「過去」を振りかえることで、「生成AIの未来」を予測してみましょう。
2022年7月13日に公開された「MidJourney」、2022年7月20日にベータ公開された「DALL-E 2」から、そろそろ2年になります。当初は人工知能(AI)の研究開発における独立した非営利組織であった「OpenAI」ですが、オープンなAIを標榜しているにもかかわらず「DALL-E 2」公開当時は倫理と安全性に関する懸念から選ばれたユーザーのみにアクセスが制限されていました。当時、自分もウェイティングリストに登録していましたが100万人も登録者がいたにも関わらず、ごく一部のユーザーしか利用できませんでした。その後、Stability AIを中心とした研究チームが2022年8月22日にダウンロード可能なオープンモデルとして「Stable Diffusion」を無償で公開しました。
日本では深津貴之さんのこのブログがきっかけとなって広く知られるようになりました。
- ⇨「世界変革の前夜は思ったより静か」(2022年8月22日 02:30付)
- https://note.com/fladdict/n/n13c1413c40de
世界中でのMidJourneyとStable Diffusionを中心とした「画像生成AI」の熱狂を受けて、2022年9月28日、DALL-E 2はすべての人に公開され、ウェイティングリストの要件は削除されました。その翌年、2023年9月、OpenAIは最新の画像モデルであるDALL-E 3を発表し、現在はChatGPTやBingなどに組み込まれています。
「MidJourney」は2Dイラストレーションに特化した「NijiJourney」と協力し、現在も技術的進化を繰り返し、幅広いユーザーが利用しています。「Stable Diffusion」はオープンモデルとして、オープンソースコミュニティや独自サービスを展開したい開発者を中心に画像生成AIの基盤技術として広く愛されています。特に「Stable Diffusion」のコミュニティは他の商業サービスと異なり、無償で世界中のクリエイターや開発者がその技術や探究に情熱を注いで開発を続けています。
倫理面はいつ解決するのか
生成AI全般ではなく、イラストレーションなどの分野での「AIの倫理問題」つまり『法的には問題がないけど、ユーザーや消費者の気持ちとしては炎上する』という問題はまだしばらく続きそうです。しかし、これも徐々に「当たり前」になっていくと感じています。ツールとしてのAI描画ツールはいままでもありました。例えばAdobe Photoshopの「魔法の杖」のような形で便利なツールは当たり前のように浸透しています。
一方で、人々が情熱を込めて絵を描いたり、技能を高めたり、探求したり、表現を通して伝えたり、といったことに「自動化」はありません。冷静に問題の整理や立ち位置の棲み分けが進むことで、衝突や炎上は少なくなっていくと想像します。画像を生成するという技術をどうしても許せない人は居なくならならないと考えますが、善い使われ方が多くなることで、何が技術の悪用なのか、可視化されていくと考えています。
写真分野出身である筆者にとっては、このような問題は(一定数の悪用・濫用をする方のモラルは問いつつも)たくさんの善い使われ方や、素晴らしい作品、産業を通した技術の一般化で長い時間をかけて「解けていく」と信じています。画像生成の分野でも、建設的に歩み寄りをしている人々か、他人の考えに興味がない人々がほとんどですが、定期的にプロの炎上屋が火を付けていることもあります。
そのような影響もあってか、大学等で講義をすると学生さんの中にはネットの喧騒を真に受けて「生成AIは悪」と思い込んでいる方も一定数いらっしゃいます。生成AIの素晴らしさを語る方々は、一生懸命に手を動かして絵を描く人々は尊い。そのような「努力を楽しみたい」という気持ちを持つ人々に寄り添う姿勢やフェーズが大事な時期かなと感じています。
企業活動にも変化が
画像生成AIに関するビジネスは、LLMに比べると「価値が分かりづらい」と言われます。文字に比べればビジュアルは「人間の理解の9割」と言われますので価値は高いはずなのですが、日本企業のビジネスにおいては、特にプラスの要素よりも前述の『倫理問題がブロック要素になっている』と認識されているようです。一方では(対外ではなく)企業の中では当たり前のように使われ始めています。特に画風などのスタイルの追加学習手法「LoRA」のような技術は既存の広告業界や映像制作業界、イラストレーションやプロの漫画製作スタジオ、アニメ、ゲームといった分野にも多く使われ始めています。
LoRAのようなスタイル学習はプロ用GPUなどの環境がないと難しいこともあり、その可能性や真価はまだ計り知れない要素がありますが、最近はLoRAを作成できる新規のAIサービスが各種出始めています。
一般に広く使われるツールと「クリエイティブとして尖った作品」を作らねばならない方々や、AIならではの体験、それをできるだけ早く・速く企画し、ビジュアルや体験にしていかねばならない業界の方々にとって、もはや「画像生成AIをいかに自分の業務に活かすか」は価値そのものとなっています。「いかに遵法精神に則り、リスクマネジメント込みで使っていくか」、「市場のお気持ち」を配慮した視点で使っていくか、そして「誰がどのように炎上させているのか」といった倫理面や社会行動科学といった総合的な要素も含めて「AIガバナンス」や「AIマネジメント」といった仕事が生まれています。技術的には電子透かしやライツマネジメント、来歴記録といった技術が重要になってきますし、企業の研究開発ではコアテクノロジーから標準化技術に入っています。
多様なモデルとAPI
従来は「まずはGPUを買って自作PCで、画像生成AIモデルをダウンロードして、自宅で画像を生成する」という文化風潮もあった画像生成AIの分野ですが、画像生成の祖とも言えるStability AIも、最近は新たな方向性を打ち出しています。まず最新の「Stable Diffusion 3(SD3)」は、オープンモデルである「Stable Diffusion 3 Medium(SD3M)」はダウンロードして独自のアプリやサービスに組み込むことができますが、商用利用可能かつ年間収益が100万米ドルを超えない個人クリエイターや小規模事業者の商用利用は無料で利用できるコミュニティライセンスがあります。さらに並行して、アプリケーション開発インタフェース「API」から利用する、より高品質な「Stable Image Ultra」などが提供されています。
従来はゲーミングPCのようなGPU搭載PCを使って利用するStable Diffusion、通称 SD1.5やStable Diffusion XL(SDXL)がオープンなモデルでもあることから、研究開発からホビー用途を中心に親しまれてきましたが、そのような「ローカルPC」や「GPU搭載サーバー」によるオウンホストのオープンモデルと並行して、GPU非搭載PCやモバイルでも安定して高速高品質に利用できるAPIも並列して使われるようになってきています。1回の画像生成にかかる費用も10円~数十円程度なので、GPUの調達や電気代に悩まされることもありません。筆者のスタジオではGPU搭載環境から並列してAPIでの連続生成、ということもよくあります。
LLM分野でもAPIの利用も進んでいます。例えば、ソフトバンクが提携している「Perplexity」(公式略称「パープレ」)は、検索AIと同じインタフェイスを通して、Playground AI、DALL-E、SDXLなどを使用して、1日に最大50件の画像化機能が利用できます。月額3,000円の価値の中に、各社のAPI使用料を埋め込んでいく戦略です。パープレにはまだSD3は搭載されていませんが、このSD3世代のAPIによる画質に見慣れてしまうと、それ以前のAPIの画質は見劣りします。APIの使いこなしについては、作品コンテストやユーザーコミュニティなどの盛り上がりで、どんどん素晴らしいテクニックが開拓されています。むしろ「これから広く知られていく段階」にあるのかもしれません。
筆者もAWS上で開発しているLINEチャットボット「全力肯定彼氏くん」にStability AIの高品質な画像生成機能を埋め込んでみました。Google Apps Scriptを使ってGoogle Slidesで簡単にいい感じのマンションポエム画像を多種生成してくれるツール「SAIAD Generator」も公開しています。
チャットやMidJourneyのような対話的な画像生成は「ワンショットで何となくいい絵が出ればいい」のですが、一方でプロ用途では「同じプロンプトで、たくさんの画像を一気に作って評価する」といった使われ方をします。そのようなときに商用で利用できるAPIはとても便利ですし、そのためにGPU搭載の高価なデスクトップPCやサーバー環境が必須ではない、ということはビジネス用途ではとても大事な機動性です。
コミュニティの力がさらに重要に
今回のこのツールは「Google Slidesだけで多様な広告画像生成ができるツール」の概念実証(Proof of Concept:PoC)なので、コストや反応速度、使い勝手などが最低限確認できればよいので、速度と手軽さ重視で作っていますが、「Stability AI API」本家には生成以外にも背景除去やスタイル学習のような魅力的なAPIが次々と提供されてきていますので、Google Workspaceと統合してより高度なツールやサービスに育てていくこともできるかもしれません。従来であればこのような開発はGPU搭載の高価なサーバーを使って検証する必要がありましたが、このような高品質で高度なAI機能を利用できるAPIがありますので、個人レベルでも自分だけのオリジナルツールを自分で作っていくことができますし、機能や品質面の拡充は開発者とユーザーの動向を見ながら段階的に検証することができます。
さて、歴史をふまえて未来を観測すると、現在の生成AIは「Linuxにおける2000年頃」に似ているのかもしれません。ちょうど商用の RedHat Linuxと無料のLinuxが混在していた時代です。WindowsやMacOSがある中で、より魅力的で快適なアプリやツール、環境を自分たちで作り、その翻訳や解説、フィットする市場やケース、独自の使いこなしを展開して共有していく……そういった「作り手のコミュニティ」の影響力はますます大きくなっていくと考えています。もちろん「これは生成AIを使っています」というカンバンを前面に出した「AI製品」もしばらくは続くと思います。その一方で組込機器やゲーム機、スマホのOSといった「当たり前の消費者向けプラットフォーム」として使われる例も多くでてくるでしょうし、Linuxの歴史に例えると、UbuntuやChromebookのようなデスクトップOSとしての教育現場で幅広く使われるような時代もすぐに来るかもしれません。
画像生成AIは今後、より品質高くAPIサービスを提供し、コミュニティやファンをどれだけ作っていけるか、どれだけ沢山の人に使われることで、「より当たり前になる」という方向性と、大量に高速に、高品質に多様な画像を作る技術のように「よりプロフェッショナルに」という方向性が同時並行に進んでいくと予想します。
現在の生成AIでは「火中の栗を拾いに行くような分野」に見えるコミケや漫画同人誌の世界でも実は「コミュニティ」という意味では同じかもしれません。汗とインクにまみれた漫画を描くのが大好きな人も居るでしょうし、画像生成AIで作品をつくるのが好きな人も居るでしょう、そしてその作品を好んで入手する人もいるでしょう。「どちらがいいか、どちらかでなければ駄目」という堅い分野もありますが、画像生成AIについては「ゴールや正解がない課題」であることが多いので、より合理的で表現力豊かで、みんなに使われている技術と、誰にも真似できない表現力と品質を兼ね備えたツールが普及するでしょう。
消費者でもあり、プロフェッショナルな作り手でもある。例えば同人作家さんのようなクリエイターでありプロシューマーであるツールの使い手が、技術や法律、倫理面を正しく理解しながら、画像生成AIの「陽のあたる場所」を作り、近しいコミュニティの方々と雑談しながら、認め合いながら、新しいものづくり・コトづくりを進めていくと予感します。
便利な道具の使い手として敏感な「窓の杜」の読者さんたちが、今後の主人公ともいえます!陽のあたる場所にこそ「窓」は必要ですからね!