生成AIストリーム

新画像生成AI「FLUX.2」が登場! オープンモデルで4メガピクセルの“超”高解像度生成を試す

 「Nano Banana Pro」のおかげで勝負あったかのような印象がある画像生成AI、しかし年末のこの時期は様々なリリースが投入される時期でもあります。

 Googleから突如発表された超高速画像生成モデル「Nano Banana」(※注:仮称・愛称の可能性があります)の登場により、画像生成AI界隈は『編集能力こそ正義、勝負ありか?』という空気に包まれました。

 「Google フォト」やYouTubeといった膨大な検索基盤をもつ「Google Gemini」による「Nano Banana preview」とその完全有料版「Nano Banana Pro」は画像生成業界には大激震となりました。今後、印刷物や映像といった産業全体にまで影響がある可能性があります。

 しかし、その喧騒を他所に沈黙を守っていたドイツとサンフランシスコを拠点にする職人集団「Black Forest Labs(BFL)」が、日本時間11月26日の深夜に新作をリリースしてきました。彼らが投入してきたのは、圧倒的な高品質な画像生成と解釈が可能なオープンモデル「FLUX.2」です。



 しかもオープンモデルである「FLUX.2 [dev]」が入手できます。筆者はこのニュースを聞きつけ、居ても立ってもいられず、深夜のテンションで愛機(とGoogle Colab A100 GPU)を叩き起こしました。最近流行りの『バイブコーディング』ならぬ、ガチの『ライブコーディング(Live Coding)』で、朝まで「ComfyUI」と格闘した実録レポートをお届けします。

「FLUX.2」は一体何が進化したのか?

 まず特筆すべきは、FLUX.2が「4メガピクセル(約2,048×2,048ピクセル)」までの解像度での画像編集と詳細の保持を可能にしている点です。以下のような実務的な機能強化が図られているからです。

  1. マルチリファレンス対応:最大10枚の画像を同時に参照し、キャラクターや製品、スタイルの整合性を維持可能。
  2. テキストレンダリングの強化:複雑なタイポグラフィ、インフォグラフィック、UIモックアップなどが実用レベルで生成可能。
  3. プロンプト追従性の向上:多段階のプロンプトや構成的な制約を含む、複雑で構造化された指示への忠実度がアップ。

 特に世界知識の強化により、物理的な照明や空間論理が現実世界に基づいて接地(グラウンディング)されており、より整合性のとれたシーンが生成されるようになりました。

「FLUX.2」での画像生成例:公式提供

中身は240億パラメータ「Rectified Flow」と「Mistral-3 24B」

 筆者が検証時に『やけに賢い』と感じた理由は、モデルのアーキテクチャにありました。「FLUX.2」は、「Mistral-3 24B」視覚言語モデル(VLM)と、Rectified Flow Transformer(整流フロー変換器)を結合させた構造になっています。これまでの画像生成モデルが苦手としていた空間的な関係性や素材の特性、構成の論理をTransformerが捉えつつ、VLMが現実世界の知識と文脈理解を持ち込むことで、圧倒的な描写力を実現しているのです。プロンプトに複雑な指示が含まれていてもを正確に理解できるのも、この24B(240億)パラメーターを持つLLMの力が大きいと言えるでしょう。

ラインナップは4種類、オープンウェイト版「Dev」が楽しい!

 BFLは「オープンコア」というアプローチを掲げており、今回も商用APIとオープンウェイトモデルの両方を展開しています。

  1. FLUX.2 [pro]
    最高峰の画質と速度を兼ね備えたモデル。プロンプトの忠実度や視覚的忠実度において、他のクローズドモデルに匹敵する性能を持ちます。筆者のスタジオでは『漫画の執筆に使えるレベル』と見ています。
  2. FLUX.2 [flex]
    開発者がステップ数やガイダンススケールを制御できるモデル。テキストや細かいディテールのレンダリングに優れています。
  3. FLUX.2 [dev]
    ここが「窓の杜」読者にとっての本命でしょうか。「FLUX.2」ベースモデルから派生した32B(320億)パラメーターのオープンウェイトモデルです。非商用ライセンスですが、Hugging Faceでウェイトが公開されており、NVIDIAの協力により作成された最適化済みのfp8実装を使えば、GeForce RTXのようなコンシューマー向けGPUでも動作します。
  4. FLUX.2 [klein]
    近日公開予定のApache 2.0ライセンスモデル。ベースモデルから蒸留(Distilled)されており、同サイズのモデルよりも強力で開発者に優しい仕様になるとのこと。

 これらのモデルは今後、NVIDIA、Adobeをはじめとする数多くのパートナーから提供される可能性があります。

BFLのパートナー企業

「FLUX.2 Pro」は文句なしの高画質!漫画にも使えるかも…

 筆者がAICUとジャンプルーキーで漫画『Youkai』を連載する 殻尾さんX@kara_Beeeさんと漫画に使えるか評価してみました。

プロンプト『1girl,manga style,white outline,sketch,black long hair,blazer,upper body.she is locating on the left side, reading a manga of "FLUX.2 [pro]", "窓の杜".』で生成した漫画風画像

 漫画『Youkai』は筆者が原作、作画は全て殻尾さんの手によるAIなので、どんな技術が使われているか興味がある人は追いかけてみてくださいね!

 AICUでは実写だけでなく、漫画やイラスト、ドット絵、3Dや2.5Dなども実験しています。



 「FLUX.2 Pro」は上記のBFLのパートナー企業各社で使えますが、なかなか良さそうですね!

「ComfyUI」での『重厚な』体験

 筆者の手元にあるGPU環境で「FLUX.2 [dev]」が動かせたかというと、そんな重さではありませんでした。ファイルサイズだけでなく、Google Colab A100 GPU環境で「ComfyUI」を使って動かした際の生成時間は『34秒』。この生成時間は、決して軽いものではありません。しかし、それは裏を返せば、320億パラメーターのモデルが、家庭用のPC(ハイエンドGPUは必要ですが)でローカルに動作し、4メガピクセルの高精細な画像を出力できるという『パワー』の証でもあります。特に注目したいのは『マルチリファレンス機能』です。これまではLoRA(追加学習)を行わなければ難しかった『キャラクターの固定』や『画風の統一』が、最大10枚の参照画像を読み込ませるだけで実現できる可能性があります。これは、漫画制作やゲームアセットの作成といったワークフローを劇的に変えるポテンシャルを秘めています。

プロンプトに秘められた『言語理解』の進化

 まず注目すべきは、このモデルがどのように言葉を理解しているかです。今回、「FLUX.2」のテキストエンコーダー(言葉をAIに理解させる部分)には、「GPT-4o mini」などに匹敵する賢さの「Mistral 3 Small」が採用されています(選べます)。通常、CLIPなどが使われる部分に、かなり賢いLLM(大規模言語モデル)の血が入っていることになります。

 「ComfyUI」公式ワークフローに含まれていたプロンプトを見てみましょう。

cute anime girl with gigantic fennec ears and a big fluffy fox tail with long wavy blonde hair and large blue eyes blonde colored eyelashes wearing a pink sweater a large oversized gold trimmed black winter coat and a long blue maxi skirt and a red scarf, she is happy while singing on stage like an idol while holding a microphone, there are colorful lights, it is a postcard held by a hand in front of a beautiful city at sunset and there is cursive writing that says "Flux 2, Now in ComfyUI"

 これを翻訳・分解すると、結構な情報量で、難しいプロンプトであることがわかります。

  1. キャラクター:巨大なフェネックの耳、大きなふわふわのキツネの尻尾、長いウェーブのかかった金髪、大きな青い目、金色のまつ毛、ピンクのセーター、金縁の特大黒ウィンターコート、長い青のマキシスカート、赤いスカーフ。
  2. アクション:アイドルのようにステージでマイクを持って歌っており、幸せそう。
  3. 環境:カラフルな照明。
  4. メタ構図:これは「夕日を背景にした美しい街の前で、手で持たれているポストカード」である。
  5. 文字情報:筆記体で「Flux 2, Now in ComfyUI」と書かれている。
「ComfyUI」公式ワークフローに含まれていたプロンプトで生成した画像

 プロンプトの前半部分『cute anime girl with gigantic fennec ears ... there are colorful lights.』と生成される見事なフェネック娘。毛並みのフワフワ感や衣装の質感は、2次元と3次元の狭間にあるようなBFL独特のリッチさがあります。そして特筆すべきは、プロンプト後半の指示です。『it is a postcard held by a hand in front of a beautiful city at sunset and there is cursive writing that says "Flux 2, Now in ComfyUI"』つまり『これまでの画像生成を it で受けて、ポストカードにして持たせて、さらに文字も入れて』ということで3つの画像を生成しているようなコストがあります。

『それをポストカードにして持たせて、さらに文字も入れて』で、レンダリングされた画像

 入れ子構造の構図が見事に再現されています。そして文字描写。『Flux 2, Now in ComfyUI』という筆記体が、崩れることなく鮮明に描かれています。「FLUX.1」の時点でも文字生成能力は高かったですが、「2」ではさらに安定感が増している印象です。

 そして画像の合成能力、これはLatent空間でのCombineというテクニックで、テキストプロンプトと同列に画像を融合させることができます。「ComfyUI」の使い手でなければ知らないかもしれません。

 ワークフローをよく見ると、TextToImageと同列に、左上から参照画像として読み込ませることも可能になっています([Ctrl]+[B]キーでON/OFFを切り替えられます)。しかし、戸の生成作業ではつかっていません。つまり、純粋にテキストの力だけでこの描写を行おうとしているわけです。

 [Queue Prompt]を押して生成を開始すると、前述したように生成時間は34秒間となかなかに大きいです。「LCM」や「Turbo」といった技術で1秒未満の生成を見慣れてしまった現代のAI術師にとって、A100で34秒は『動画か?』と思うぐらいの長さです。AI生成の体感としては『かなり重たい』部類に入ります。これがBFLの目指す『重厚な高品質』の代償なのでしょう。

 無料で入手できるオープンモデルとなると、最近では「Qwen-Image-Edit」が強力ですが、イラストレーションレベルではなくプロ写真用途の高緻密な描写をするオープンモデルでこれができるとはちょっとした大きい意味があります。

4メガピクセルの衝撃と、4,096ピクセルの無謀な挑戦

 「FLUX.2」の真骨頂は、その解像度にあります。これまでは「FLUX.1 Pro」や「FLUX.1.1 Pro Ultra」といった有料APIや商用上位モデルでのみ許されていた『4メガピクセル(約2,048×2,048ピクセル)』級のtext2image(テキストからの直接生成)が、ローカル環境で可能になりました。

 アップスケーラー(拡大処理)を使わずに、いきなりこの解像度で出力できるのは革命的です。ここで筆者の悪い癖が出ました。『2,048がいけるなら、倍の4,096もいけるのでは?』調子に乗って4,096×4,096にすると20分もかかってこんな画像になってしまいました。時間の無駄なので絶対にお勧めしません。

4,096ピクセル四方で生成しようとして生成されたボケボケ画像

 モデルの注意機構(Attention)の限界か、やはりカタログスペック(推奨解像度)を守ることは大事ですね。現時点では4,096ピクセル四方の生成は時間の無駄なので、読者の皆様は真似をしないようにお願いします。

しらいはかせ(白井暁彦)X@o_ob

AICU Japan株式会社 X@AICUai 代表/作家/生成AIクリエイター/博士(工学)。

「つくる人をつくる」をビジョンに、世界各地のCG/AI/XR/メディア芸術の開発現場を取材・研究・実践・発信している。