ニュース

Google、最新鋭のリアルタイム音声AIモデル「Gemini 3.1 Flash Live」を発表

おしゃべり検索機能「Gemini Live」「Search Live」の新しい頭脳

Google、「Gemini 3.1 Flash Live」を発表

 米Googleは3月26日(現地時間)、「Gemini 3.1 Flash Live」を発表した。同社のリアルタイム音声生成モデルとしては、これまでで最高の品質を誇るとされている。

 「Gemini 3.1 Flash Live」は、「Gemini 2.5 Flash Native Audio」の後継となる音声生成モデル。前世代モデルと比べ、応答の低遅延化と音声理解精度の向上が図られた。

 たとえば複数ステップの関数呼び出しを伴う複雑なタスクを評価するベンチマーク「ComplexFuncBench Audio」では90.8%のスコアを記録。また、実際の音声環境での割り込みや言いよどみを含む複雑な指示への対応を評価するScale AIの「Audio MultiChallenge」でも「Thinking」モードを有効にした状態で36.1%をマークし、競合モデルの中でトップの結果を叩きだしている。

各種ベンチマークでも前世代や競合のモデルを凌駕する結果を叩きだす

 しかし、本モデルの魅力はパフォーマンスと品質だけではない。入力音声のピッチやペースといった音響的なニュアンスの認識も「2.5 Flash Native Audio」より優れており、ユーザーが困惑していたり、苛立っていたりしていても、その感情的な状態を検出し、応答のトーンや長さを動的に調整できる。従来のAIモデルをそのままコールセンター業務に利用すると顧客満足度が低下することがあったが、「3.1 Flash Live」ならば顧客の感情に寄り添った対応が可能となるかもしれない。

 そのほかにも、周囲の雑音を排除してユーザーの発話を高精度に分離するノイズキャンセリング能力も向上しているとのこと。

 「3.1 Flash Live」は、「Gemini Live API」を通じて開発者向けにプレビュー提供される。一般ユーザーもスマホをかざして話すだけでAIが回答してくれる「Gemini Live」などで、「Gemini 3.1 Flash Live」の恩恵を受けられる。

 また、「3.1 Flash Live」にあわせ「検索 Live」(Search Live)が日本を含む200以上の国・地域へのグローバル展開される。「検索 Live」は「Gemini Live」がベースで、「Google 検索」の「AI モード」(AI Mode)から利用できるのが特徴。リアルタイムでの助けが必要な場面や、テキストで検索クエリを入力するだけではうまく検索できないケースで役立つ。

 なお、「Gemini 3.1 Flash Live」で生成される音声には、GoogleのAI生成コンテンツ識別技術「SynthID」による電子透かしが自動的に埋め込まれる。ディープフェイクに悪用されても、AIで生成・加工されたことがあとから検証できる。