ニュース

OpenAI、「ChatGPT Images 2.0」を発表 ~同社初、思考能力を獲得した画像生成モデル

従来モデルの課題を克服。最大2K認識、実際に読み取れるQRコードの生成も

OpenAI、「ChatGPT Images 2.0」を発表

 米OpenAIは4月22日(現地時間)、新しい画像生成モデル「ChatGPT Images 2.0」を発表した。本日より、無償プランを含むすべての「ChatGPT」および「Codex」ユーザーが利用できる。モバイルアプリで利用する場合は、最新バージョンへの更新が必要。API経由では「gpt-image-2」の名称で「ChatGPT Images 2.0」が提供される。

 「ChatGPT Images 2.0」は、複雑な視覚タスクをこなし、精密なビジュアルを即座に生成できる最先端の画像生成モデル。高度な指示(プロンプト)への追従性、オブジェクトの正確で自然な配置、英語以外のテキストへの対応などでも長足の進歩を遂げているという。画像の特徴を正確に捉えることにも長けており、シネマティックな静止画、ピクセルアート、マンガなども、質感や照明、構図といったスタイルを維持したまま扱える。テキストのレンダリングも正確で、途中で言語の一貫性が失われることもない。

日本語のマンガを生成

 また、従来の画像生成AIが苦手としがちな小さく密集した文字、アイコン、UI要素なども得意で、すべてを最大2K解像度で認識できる。アスペクト比は3:1の横長から、1:3の縦長まで幅広く対応する。

米粒の山。米粒には“GPT Image 2”と書かれている。従来の画像生成AIが苦手としがちなこうした表現も、「ChatGPT Images 2.0」ならば生成可能

 「ChatGPT Images 2.0」で最大の目玉は、同社の画像生成モデルとして初めて搭載された思考(thinking)能力だ。「ChatGPT」側で推論モデルを選ぶと、「ChatGPT Images 2.0」はプロンプトから複数の画像パターンを生成し、Web検索によるリアルタイム情報の取り込みながら、自ら出力画像をチェックする。実際に読み取れるQRコードを生成することすら可能だ。

 ナレッジカットオフ(学習データの最終更新日)は2025年12月で、それまでに蓄積された知識をもとにコピーライティングから分析、デザイン構成に至るまでのタスクを一貫して専門的に処理できる知能を備える。

カントールの対角線論法の証明をインフォグラフィックスに。非常に抽象的な数学の証明を、視覚的に分かりやすい図として生成できるほど高度な思考能力があるという一例

 ただし、思考を伴う画像生成は「ChatGPT」の「Plus」以上のユーザーにのみ提供される(「Enterprise」は近日対応予定)。