ニュース

OpenAI、「GPT-4o」に画像生成モデルを組み込み

「ChatGPT」のPlus/Pro/Team/Freeプランで利用可能

「GPT-4o」の画像生成モデルから生成された画像

 米OpenAIは3月25日(現地時間)、「GPT-4o」に画像生成モデルを組み込んだと発表した。同モデルはテキストと画像の関連性だけでなく、画像同士の関連性を学習することで、より正確な画像生成を実現できるようになっている。

 「GPT-4o」の画像生成は、アップロードされた画像を含む「GPT-4o」固有のナレッジベースとチャットのコンテキストを活用し、性格にプロンプトを解釈したり、正確なテキストレンダリングを行うことが可能。そのため、ビジュアルを通じたコミュニケーションに適した思い描いた通りの画像を簡単に作成できる。

 また、画像同士の関連を学習しているためキャラクターの外観の一貫性を保ちながら複数の画像を生成するマルチターン生成ができるようになっている。さらに、従来のシステムでは5~8個ほどのオブジェクトを処理するのも難しかったが、「GPT-4o」であれば最大10~20個の異なるオブジェクトを含む画像を生成することが可能。

マルチターン生成により、キャラクターの外観を保ちながら生成可能
複数の異なるオブジェクトを生成する

 ほかにも、アップロードした画像を分析して、その画像の詳細を生成に統合できる。さらに、多種多様な画像スタイルを学習しており、フォトリアリズムな画像を作成または変換可能だ。

アップロードした画像を分析して、その画像の詳細を生成に統合
フォトリアリズムな画像を作成

 これらの機能は、「ChatGPT」のPlus/Pro/Team/FreeプランやSoraで展開されており、間もなくAPIを通じて全ての開発者が利用できるようになる。また、Enterprise/Eduも近日中に利用可能だ。