ニュース
音声合成モデル「Gemini 2.5 TTS」の表現力向上、役柄を設定した複数キャラも演じ分け
「あなたはミステリー小説の語り手です」といった指示もアリ
2025年12月11日 10:45
米Googleは12月10日(現地時間)、プレビュー提供中の音声合成モデル「Gemini 2.5 Text-to-Speech」(TTS)をアップデートした。5月に発表されたモデルよりも表現力が向上したほか、文脈にあわせた発話のペース配分、グループで会話する際のキャラクターの一貫性が改善されているという。
今回発表された「Gemini 2.5 TTS」モデルには、応答性に注力した「Flash」モデルと、品質重視の「Pro」モデルが用意される。
- Gemini 2.5 Flash TTS Preview 12-2025
- Gemini 2.5 Pro TTS Preview 12-2025
いずれも長尺のオーディオブックやローカライズされたeラーニング教材などで十分に使えるレベルとなっており、複数人の掛け合いでもキャラクターの性格を維持した音声合成が行える。スタイルとトーンも「明るく楽観的」から「厳かで真剣な」まで細かく指定できるので、ロールプレイングゲームのキャラクターや個性的なバーチャルアシスタントも演じ分けられる。
また、コンテキスト認識型のペース制御も搭載。たとえば「あなたはミステリー小説の語り手です。まずは緊張した口調から始めて、興奮と安堵を引き出すために加速してください」などと指示すると、5月モデル(Gemini 2.5 Flash TTS Preview 02-2025)は序盤から急かすような読み上げを行うが、12月モデル(Gemini 2.5 Flash TTS Preview 12-2025)はより緩急をつけて前半は緊迫した様子でゆっくり、後半にかけて盛り上がるように読み上げる。
そのほかにも、モデルの多言語対応能力が向上。24の対応言語すべてで会話中に各キャラクターの独自のトーン、音程、スタイルを保持できるようになっているとのこと。
「Gemini 2.5 Flash TTS」と「Gemini 2.5 Pro TTS」は、「Gemini API」を通じて「Google AI Studio」で利用可能。デモアプリで効果を体感することもできる。















![1冊ですべて身につくHTML & CSSとWebデザイン入門講座[第2版] 製品画像:4位](https://m.media-amazon.com/images/I/41DiWc47MYL._SL160_.jpg)





