ニュース

Googleがプロンプトから動画・画像・音楽を生成する最先端のAIを発表

映像の「Veo」、画像の「Imagen 3」、音楽の「Music AI Sandbox」

テキストから動画・画像・音楽を生成できるAIツールを発表

 米Googleは5月14日(現地時間)、テキストから動画・画像・音楽を生成できるAIモデル「Veo」「Imagen 3」「Music AI Sandbox」を発表した。

1分以上の動画が作成できる動画生成AI「Veo」

【あらすじのプロンプトをもとに、Veoで生成した動画】
Google DeepMind's text-to-video model Veo creates 60 second video

 同社はこれまで、「Imagen Video」や「Google Lumiere」を発表していたが、いずれもプロンプトをもとに5秒ほどの簡単な動画を生成するにとどまっていた。

 今回発表された「Veo」は、1分を超えた1080pのビデオを生成可能。また「タイムラプス」や「空撮」といった専門用語も反映するという。

 「Veo」は現在、AIの実験サイト「AI Test Kitchen」内のツール「VideoFX」として、映画制作者やクリエイター向けのプライベートプレビューに向けた待機リストに登録可能。将来的には、「Veo」の機能の一部をYouTubeショート動画などにも導入する予定としている。

撮影手法も指示できる画像生成AI「Imagen 3」

 「Imagen 3」は「Imagen 2」に続く画像生成AI。前バージョンの「Imagen 2」は写実的な描写を得意としていたが、「Imagen 3」はより自然に写実的なタッチで生成可能だ。また、撮影手法など幅広いプロンプトに対応し、長い文章も詳細に反映できる。

クラゲの細かい特徴のほか、写真家が一眼レフで撮影したというプロンプトも反映している。プロンプト文は「Close-up of a jellyfish pulsating through crystal-clear water, tentacles trailing,vibrant coral reef background, macro photography, stock photo,high resolution,very detailed, soft lighting, professional color grading, shallow depth of field, sharp focus, taken with a DSLR camera in the style og professional photographers.」

 また、これまでAIでは画像内に文字を組み込む指示がうまく反映できなかったが、これも改善されている。例えばパーソナライズされたメッセージやプレゼンテーションのタイトルスライドなども生成できる。

「Central Library」という文字を組み込むよう指示したものが反映されている。プロンプト文は「A photograph og a stately entrance with the words "Central Library" caved into the stone」

 「Imagen 3」も「AI Test Kitchen」内のツール「ImageFX」としてプレビューに向けた待機リストに登録可能。また、近々Googleが提供するAI開発プラットフォーム「Vertec AI」に導入される予定。

曲調や雰囲気を反映できる音楽生成AI「Music AI Sandbox」

 Googleがこれまで開発してきたモデル「Lyria」などをもとにしている。楽器セクションを始めから作成できるほか、「1986年のパリのファッションウィーク」といったシチュエーションから具体的な曲調・イメージも反映した音楽を生成できる。

 YouTubeと提携し、ミュージシャン、ソングライター、プロデューサーと協力して、実験を続けている。現在、生成されたデモ音源の数曲を公開している。

【Music AI Sandboxが生成したデモ音源をもとに作成した音楽】
"Gloop" (Music Al Demo) - Marc Rebillet

 なお、これらのAIによって生成された全てのメディアには、AIが生成したものと証明する電子透かし「SynthID」が埋め込まれる。