ニュース

音声合成モデル「Gemini 2.5 TTS」の表現力向上、役柄を設定した複数キャラも演じ分け

「あなたはミステリー小説の語り手です」といった指示もアリ

樽井秀人

2025年12月11日 10:45

Google、プレビュー提供中の音声合成モデル「Gemini 2.5 Text-to-Speech」（TTS）をアップデート

　米Googleは12月10日（現地時間）、プレビュー提供中の音声合成モデル「Gemini 2.5 Text-to-Speech」（TTS）をアップデートした。5月に発表されたモデルよりも表現力が向上したほか、文脈にあわせた発話のペース配分、グループで会話する際のキャラクターの一貫性が改善されているという。

　今回発表された「Gemini 2.5 TTS」モデルには、応答性に注力した「Flash」モデルと、品質重視の「Pro」モデルが用意される。

Gemini 2.5 Flash TTS Preview 12-2025
Gemini 2.5 Pro TTS Preview 12-2025

　いずれも長尺のオーディオブックやローカライズされたeラーニング教材などで十分に使えるレベルとなっており、複数人の掛け合いでもキャラクターの性格を維持した音声合成が行える。スタイルとトーンも「明るく楽観的」から「厳かで真剣な」まで細かく指定できるので、ロールプレイングゲームのキャラクターや個性的なバーチャルアシスタントも演じ分けられる。

　また、コンテキスト認識型のペース制御も搭載。たとえば「あなたはミステリー小説の語り手です。まずは緊張した口調から始めて、興奮と安堵を引き出すために加速してください」などと指示すると、5月モデル（Gemini 2.5 Flash TTS Preview 02-2025）は序盤から急かすような読み上げを行うが、12月モデル（Gemini 2.5 Flash TTS Preview 12-2025）はより緩急をつけて前半は緊迫した様子でゆっくり、後半にかけて盛り上がるように読み上げる。

　そのほかにも、モデルの多言語対応能力が向上。24の対応言語すべてで会話中に各キャラクターの独自のトーン、音程、スタイルを保持できるようになっているとのこと。

　「Gemini 2.5 Flash TTS」と「Gemini 2.5 Pro TTS」は、「Gemini API」を通じて「Google AI Studio」で利用可能。デモアプリで効果を体感することもできる。

Amazonで購入