ニュース

OpenAI、「GPT-5.3-Codex」を発表 ~コーディング性能向上に加え、知的作業も得意

「ChatGPT」の有料プランで利用可能

OpenAI、「GPT-5.3-Codex」を発表

 米OpenAIは2月5日(現地時間)、「GPT-5.3-Codex」を発表した。推論と専門知識にすぐれるフラグシップモデル「GPT-5.2」と、それをコーディングに特化させた「GPT-5.2-Codex」を一つのモデルにまとめて、さらに25%高速化。リサーチやツールの使用、複雑な実行を伴う長期的な作業を担うにたる能力を身に着けているという。

 「GPT-5.3-Codex」は、実世界のソフトウェアエンジニアリングを厳密に評価するベンチマーク「SWE-Bench Pro」で最先端の性能を示している。このベンチマークは「Python」のみをテストする「SWE-bench Verified」と異なり4つの言語に対応しており、複数のプログラミング言語を扱う現場でも「GPT-5.3-Codex」に実用性があることを示している。

「SWE-bench Verified」のスコア

 また、コーディングエージェントに必須のターミナルスキルを測定する「Terminal-Bench 2.0」でも最高スコアをたたき出しており、従来のモデルよりも少ないトークン数で、より多くのものを構築できる。「GPT-5.3-Codex」の初期バージョンは自分自身のトレーニングやデバッグを支援するのに用いられていたとのことだが、実力の片鱗がうかがえる。

「Terminal-Bench 2.0」のスコア

 しかも、「GPT-5.3-Codex」の能力はコーディングだけではない。視覚的なデスクトップ作業にもすぐれており、プレゼンテーションやスプレッドシート、プロダクト要求仕様書(PRD)の作成、ユーザー調査といった知的作業でも高い性能を発揮する。作業中にユーザーがリアルタイムで介入・指示・質問できるインタラクティブ性も強化されているため、プロジェクトを統括するユーザーを支える心強い協力者となるだろう。

視覚的なデスクトップ作業を測定する「OSWorld-Verified」。人間(72%)に迫るスコアを獲得

 そのほかにも、「GPT-5.3-Codex」はサイバーセキュリティ分野での活用も期待されている。「GPT-5.3-Codex」は同社の「Preparedness Framework」で最高の能力レベル「High capability」をもつと認定された初めてのモデルで、安全訓練や自動監視などに役立つ。優秀なAIは攻撃側にも悪用される危険があるが、「Next.js」のような主要プロジェクトに無料でコードベーススキャンを提供するなどして防御側を支援していくとしている。

 「GPT-5.3-Codex」は現在、「ChatGPT」の有料プランで利用可能。「Codex」を使えるアプリ、CLI、統合開発環境(IDE)、Webなどで利用できる。APIも近日中に提供される予定だ。