ニュース

Google、音声生成モデル「Gemini 2.5 Flash Native Audio」をアップデート

指示に忠実、より自然なやりとりを実現。ライブ音声翻訳など自社製品でも活用

Google、「Gemini 2.5 Flash Native Audio」のアップデートを発表

 米Googleは12月12日(現地時間)、ライブ音声エージェント向けに最適化されたAIモデル「Gemini 2.5 Flash Native Audio」のアップデートを発表した。「Google AI Studio」や「Vertex AI」といったAIツール・プラットフォームで展開されるほか、「Gemini Live」や「Search Live」(日本未提供)といった検索エクスペリエンスにも活用されるという。

 「Gemini 2.5 Flash Native Audio」は、言葉による自然なやりとりを実現する音声生成モデル。スマートフォンとおしゃべりしながらブレインストーミングをしたり、スマートフォンのカメラに映った被写体について言葉で説明してもらったり、カスタマーサービスのエージェントとして組み込んだりできる。

 「Gemini 2.5 Flash Native Audio」では従来モデルに比べ、以下の点が改善されているという。

  • 関数呼び出しの精度向上:リアルタイムなWeb情報など、会話中に外部データが必要になったことを的確に判断し、その結果を音声応答へシームレスに織り交ぜて対応できるように
  • プロンプトに忠実:複雑な指示を理解して、それに沿った応答を行うように。信頼性は9月モデルの84%から90%に改善
  • 会話の滑らかさ:過去の文脈をより効果的に保持できるようになり、複数回のやりとりを行うマルチターン会話でより自然な応答を行うように
従来モデルに比べ、3つの点を改善

 また、ライブ音声翻訳をネイティブサポートしているのも特徴だ。「Gemini 2.5 Flash Native Audio」のライブ翻訳機能は70カ国語以上に対応しており、2,000以上の言語ペアで利用可能。発話者のイントネーションやテンポ、ピッチを翻訳音声でそのまま再現したり、言語を自動で検出したりもできる。「Google 翻訳」モバイルアプリに実装されたライブ音声翻訳機能にも採用されているとのこと。

 周囲がさまざまな言葉で話しているのをすべて母国語に翻訳したり、異なる言語間の双方向コミュニケーションをシームレスに行ったりできるだけでなく、周囲の雑音を除去するノイズリダクションも標準でサポートする。