ニュース
OpenAI、「gpt-realtime」を発表 ~同社最新鋭の音声対話(speech-to-speech)モデル
複雑な指示の理解、ツールの正確な呼び出し、より自然で表現豊かな音声生成が特徴
2025年8月29日 09:15

米OpenAIは8月28日(現地時間)、「gpt-realtime」を発表した。同社が提供するなかでもっとも先進的な音声対話(speech-to-speech)モデルで、音声エージェントとして実用段階にあると謳っている。
この新しいモデルは、カスタマーサポートやパーソナルアシスタント、教育といった実世界のタスクのために顧客との緊密な連携のもと訓練されており、開発者が音声エージェントを構築・展開するのに適している。複雑な指示の理解、ツールの正確な呼び出し、より自然で表現豊かな音声生成に長けているとのこと。非言語的合図(笑い声など)の捕捉、文中での言語切り替え、トーンの調整(「きびきびとプロフェッショナルに」「親切で共感的に」など)も行える。内部評価によれば、日本語を含む英語以外の言語で英数字列(電話番号など)を検出する精度も向上しているという。

推論能力を測定するベンチマーク「Big Bench Audio」で、「gpt-realtime」は82.8%の精度を達成しており、これは2024年12月時点の前モデルが記録した65.6%を大幅に上回るものだ。指示順守精度を測定する音声ベンチマーク「MultiChallenge」においても「gpt-realtime」は30.5%のスコアを達成しており、これは前述モデルの20.6%から大きく進歩している。関数呼び出し性能を測定する音声評価「ComplexFuncBench」では、49.7%から66.5%への改善が見られた。


そのほかにも、昨年10月にパブリックベータ版として公開された「Realtime API」の一般提供が開始された。リモートMCPサーバーのサポートや画像の入力、SIP通話への対応(公衆電話網などへの接続が可能)などの新機能に加え、新しい音声「Cedar」「Marin」が追加されている。悪用防止のための保護層・対策機能も組み込まれているとのこと。