ニュース

音声合成モデル「Gemini 2.5 TTS」の表現力向上、役柄を設定した複数キャラも演じ分け

「あなたはミステリー小説の語り手です」といった指示もアリ

Google、プレビュー提供中の音声合成モデル「Gemini 2.5 Text-to-Speech」(TTS)をアップデート

 米Googleは12月10日(現地時間)、プレビュー提供中の音声合成モデル「Gemini 2.5 Text-to-Speech」(TTS)をアップデートした。5月に発表されたモデルよりも表現力が向上したほか、文脈にあわせた発話のペース配分、グループで会話する際のキャラクターの一貫性が改善されているという。

 今回発表された「Gemini 2.5 TTS」モデルには、応答性に注力した「Flash」モデルと、品質重視の「Pro」モデルが用意される。

  • Gemini 2.5 Flash TTS Preview 12-2025
  • Gemini 2.5 Pro TTS Preview 12-2025

 いずれも長尺のオーディオブックやローカライズされたeラーニング教材などで十分に使えるレベルとなっており、複数人の掛け合いでもキャラクターの性格を維持した音声合成が行える。スタイルとトーンも「明るく楽観的」から「厳かで真剣な」まで細かく指定できるので、ロールプレイングゲームのキャラクターや個性的なバーチャルアシスタントも演じ分けられる。

 また、コンテキスト認識型のペース制御も搭載。たとえば「あなたはミステリー小説の語り手です。まずは緊張した口調から始めて、興奮と安堵を引き出すために加速してください」などと指示すると、5月モデル(Gemini 2.5 Flash TTS Preview 02-2025)は序盤から急かすような読み上げを行うが、12月モデル(Gemini 2.5 Flash TTS Preview 12-2025)はより緩急をつけて前半は緊迫した様子でゆっくり、後半にかけて盛り上がるように読み上げる。

 そのほかにも、モデルの多言語対応能力が向上。24の対応言語すべてで会話中に各キャラクターの独自のトーン、音程、スタイルを保持できるようになっているとのこと。

 「Gemini 2.5 Flash TTS」と「Gemini 2.5 Pro TTS」は、「Gemini API」を通じて「Google AI Studio」で利用可能。デモアプリで効果を体感することもできる。