ニュース
OpenAI、次世代音声モデルをAPIに導入 ~「親身なカスタマー担当のように話して」も可能
書き起こしの精度は以前の「Whisper」モデルを凌駕
2025年3月21日 13:51
米OpenAIは3月20日(現地時間)、次世代音声モデルをAPIに導入したと発表した。「OpenAI.fm」などで試すことができる。
新しいオーディオモデルは「GPT-4o」および「GPT-4o-mini」アーキテクチャーに基づいて構築されており、モデルのパフォーマンスを最適化するため、大量の高品質な音声データセットで事前学習されている。また、蒸留技術を強化し、大きなオーディオモデルからより小さく、より効率的なモデルを作り出したり、強化学習(RL)を多用するパラダイムを統合することで、オーディオモデルの技術革新を成し遂げているという。
たとえば、新しい音声テキスト変換(Speech-to-Text)モデル「gpt-4o-transcribe」、「gpt-4o-mini-transcribe」は以前の「Whisper」モデルと比較し単語の誤り率が改善されており、言語認識とその精度が向上しているとのこと。訛りがあったり、騒音が多かったり、スピードが異なる発話が混在していたりといった従来では聞き取りが難しい条件下でも、より高い信頼性を期待できるだろう。
また、テキスト音声変換(Text-to-Speech)モデル「gpt-4o-mini-tts」は、何を話すかだけでなく、どのように話すかをモデルに指示できる。たとえば「カスタマーサービスでよい印象を与えるために親身に」「読み聞かせのために感情豊かに」といった、音声合成APIで用途に応じたカスタマイズが行える。
これらの新しい音声モデルは、APIを通じすべての開発者が利用可能。会話型エージェント開発を支援する新しいSDKも提供される。