ニュース
“演技指導”も可能 ~Google、テキスト読み上げモデル「Gemini 3.1 Flash TTS」を発表
品質、コスト、スピード、非の打ち所のない最新鋭モデル
2026年4月16日 10:42
米Googleは4月15日(現地時間)、最新のテキスト読み上げ(Text-to-Speech)モデル「Gemini 3.1 Flash TTS」を発表した。「Gemini API」や「Google AI Studio」(開発者向け)、「Vertex AI」(企業向け)を通じて開発者にプレビュー提供されるほか、「Google Workspace」のビデオ生成ツール「Vids」で活用される。
「3.1 Flash TTS」は同社の新世代音声生成モデルで、以前のモデルより全体的に音声品質が向上している。「Artificial Analysis TTS」リーダーボードにおいても「1211」という高いELOスコアを記録しており、最上位に位置する。競合モデルに比べ、とくに品質とコストのバランスに優れているようだ。
「3.1 Flash TTS」は70以上の言語に対応し、複数の話者(マルチスピーカー)による対話をネイティブにサポートする。
機能面でユニークなのは、「オーディオタグ」を用いてきめ細やかな表現コントロールが行えること。たとえばテキストに「元気な声で」「ゆっくりと」「緊張した様子で」といった注釈をそのまま埋め込むことで、音声モデルの出力を調整することができる。
つまり、ユーザーが「3.1 Flash TTS」の監督となり、ペース、トーン、アクセントなどをストーリーや場面に応じて演技指導できるというわけだ。
音声生成の調整が完了したら、そのパラメーターを「Gemini API」コードとしてエクスポートできるので、他のプロジェクトやプラットフォームへ展開することも可能。
なお、「3.1 Flash TTS」で生成される音声にはかならず「SynthID」が埋め込まれる。人間の耳には聞こえないが、AIで生成されたことをあとから確実に検証できる仕組みになっており、フェイクニュースなどへの悪用を防ぐのに役立てることができる。






















