ニュース

OpenAIが「GPT-Realtime-2」を発表 ~GPT‑5級の推論機能を備えた音声対話モデル

翻訳の「GPT-Realtime-Translate」、文字起こしの「GPT-Realtime-Whisper」も

OpenAI、「GPT-Realtime-2」などを発表

 米OpenAIは5月7日(現地時間)「Realtime API」に3つの新しい音声モデルを追加したと発表した。

  • GPT-Realtime-2:初めて「GPT‑5」クラスの推論機能を備えた音声対話(speech-to-speech)モデル。リアルタイムで推論しながらリクエストを処理し、会話を自然に継続できる。コンテキストウィンドウは前世代の32Kから128Kに拡大され、並列ツール呼び出しやトーン制御、推論努力の調整(「minimal」から「xhigh」まで)も可能
  • GPT-Realtime-Translate:70以上の入力言語から13の出力言語へのリアルタイム翻訳が可能な音声翻訳モデル
  • GPT-Realtime-Whisper:話しながらリアルタイムで音声を文字起こしするストリーミング文字起こし(speech-to-text)モデル。ライブ字幕、議事録作成、授業の文字起こしなどに活用できる

 ベンチマークでのスコアも良好で、音声入力をサポートするモデルの推論能力を評価する「Big Bench Audio」で「GPT-Realtime-2」(high)は「GPT-Realtime-1.5」より15.2%高いスコアを獲得。音声対話システムのマルチターン評価を行う「Audio MultiChallenge」では「GPT-Realtime-2」(xhigh)が指示追従において13.8%高く評価されており、リアルタイムな会話における推論力、コンテキスト管理、コントロール力が強化されていることが実証されている。

ベンチマークのスコアも改善

 100万音声トークンあたりの価格は、「GPT-Realtime-2」が入力32米ドル(キャッシュは0.40米ドル)、出力64米ドル。「GPT-Realtime-Translate」「GPT-Realtime-Whisper」の価格は1分あたり、前者が0.034米ドル、後者が0.017米ドルとなっている。