ニュース
OpenAIが「GPT-Realtime-2」を発表 ~GPT‑5級の推論機能を備えた音声対話モデル
翻訳の「GPT-Realtime-Translate」、文字起こしの「GPT-Realtime-Whisper」も
2026年5月8日 09:20
米OpenAIは5月7日(現地時間)「Realtime API」に3つの新しい音声モデルを追加したと発表した。
- GPT-Realtime-2:初めて「GPT‑5」クラスの推論機能を備えた音声対話(speech-to-speech)モデル。リアルタイムで推論しながらリクエストを処理し、会話を自然に継続できる。コンテキストウィンドウは前世代の32Kから128Kに拡大され、並列ツール呼び出しやトーン制御、推論努力の調整(「minimal」から「xhigh」まで)も可能
- GPT-Realtime-Translate:70以上の入力言語から13の出力言語へのリアルタイム翻訳が可能な音声翻訳モデル
- GPT-Realtime-Whisper:話しながらリアルタイムで音声を文字起こしするストリーミング文字起こし(speech-to-text)モデル。ライブ字幕、議事録作成、授業の文字起こしなどに活用できる
ベンチマークでのスコアも良好で、音声入力をサポートするモデルの推論能力を評価する「Big Bench Audio」で「GPT-Realtime-2」(high)は「GPT-Realtime-1.5」より15.2%高いスコアを獲得。音声対話システムのマルチターン評価を行う「Audio MultiChallenge」では「GPT-Realtime-2」(xhigh)が指示追従において13.8%高く評価されており、リアルタイムな会話における推論力、コンテキスト管理、コントロール力が強化されていることが実証されている。
100万音声トークンあたりの価格は、「GPT-Realtime-2」が入力32米ドル(キャッシュは0.40米ドル)、出力64米ドル。「GPT-Realtime-Translate」「GPT-Realtime-Whisper」の価格は1分あたり、前者が0.034米ドル、後者が0.017米ドルとなっている。

















![【Amazon.co.jp限定】1冊ですべて身につくHTML & CSSとWebデザイン入門講座[第2版] (特典:「Webデザイナーのポートフォリオの作り方入門講座」データ配信) 製品画像:5位](https://m.media-amazon.com/images/I/51skMJ-OVcL._SL160_.jpg)




