ニュース

OpenAI、「GPT-4o」を発表、2倍速く、50%安く、~テキスト・音声・画像すべてを理解

新しい「ChatGPT」アプリも、Windows版は今年後半リリース予定

OpenAI、「GPT-4o」を発表

 米OpenAIは5月13日(現地時間)、大規模言語モデル(LLM)「GPT-4o」を発表した。同社最新のフラッグシップモデルで、従来の「GPT-4 Turbo」と比べ2倍速く、50%安価となっている。

 「GPT-4o」の「o」は「Omni」(ラテン語で「すべて」を意味する語)からきており、その名の通りテキスト、音声、画像の任意の組み合わせを入力として受け入れ、テキスト、音声、画像の任意の組み合わせの出力を生成できる。

 たとえば声で「ChatGPT」と話す「Voice Mode」を実現する場合、従来は音声をテキストへ転写するモデル、テキストを受け取ってテキストで応答するモデル、そして応答テキストから再度音声を生成するモデルを繋ぎ合わせていた(パイプライン)。そのため、モデル間で連携する過程で多くの情報が欠落してしまっていた。

 しかし、「GPT-4o」はテキスト、ビジョン、音声がエンドツーエンドでトレーニングされており、すべての入力と出力が同じニューラルネットワークによって処理される。そのため、外国語のメニューをカメラで撮影し、それを「GPT-4o」にかけて翻訳したり、料理の歴史や意義について学んだり、おすすめの料理を教えてもらうといったことがシームレスに行える。

モデルの評価。「GPT-4o」は既存のOpenAIモデルや競合他社のモデルより優れている

 音声モダリティにはまだリスクがあるため、初期リリースがサポートするのはテキストと画像の入出力のみだが、将来的にはより自然でリアルタイムな音声会話を楽しんだり、リアルタイムで「ChatGPT」と動画チャットを行えるように改良される予定だ。たとえば、「ChatGPT」にスポーツの試合中継を見せてルールを説明してもらう、といったことも行えるようになる。

 そのほかにも、高度なAIをより身近で便利なものにするため、言語機能の品質とスピードの両方を改善。「ChatGPT」もサインアップやログイン、ユーザー設定などで50以上の言語をサポートするようになった。新しいMacアプリも提供される(Windows版は今年後半リリース予定)。

無償プランでも制限付きで体験可能

 「GPT-4o」現在は、「ChatGPT Plus」および「Team」で提供中。「Enterprise」ユーザーへの提供も間もなく開始される。また、「ChatGPT Free」でも制限付きで提供される。「GPT-4o」が混雑すれば自動で「GPT-3.5」へ切り替わってしまうが、無償でも「GPT-4o」の能力を体験できる。

新しい「ChatGPT」アプリも、Windows版は今年後半リリース予定

 ちなみに「Plus」ユーザーの利用枠は無料ユーザーの最大5倍で、「Team」と「Enterprise」ユーザーはさらに制限が緩和される。