ニュース

Googleが自動生成AI分野へ本格参入、短い文章から動画を生成するAI「Imagen Video」を発表

石山裕規

2022年10月6日 14:10

Googleが動画生成AI「Imagen Video」を発表

　米Googleの研究チームGoogle Researchは10月5日（現地時間）、動画生成AI「Imagen Video」を発表した。「A teddy bear washing dishes（お皿を洗うテディベア）」といった短い文章から生成されたサンプル映像を紹介する特設サイトを公開。米Metaが披露した動画生成AI「Make-A-Video」に続いて、同分野への本格参入を果たす。

A teddy bear washing dishes | Google「Imagen Video」のサンプル動画

A bicycle on top of a boat | Google「Imagen Video」のサンプル動画

　「Imagen Video」は、同社が今年5月に発表した動画生成AI（拡散モデル）「Imagen」に基づいたもの。

　動画生成の流れは「A bicycle on top of a boat（船の上の自転車）」といったテキストプロンプトを入力すると、まず自然言語処理AI「T5」がエンコード。続いて、拡散モデル（Video Diffusion Models）が24×48ピクセルで16フレーム、毎秒3フレームを生成する。そして、複数の「時間的超解像度（TSR）」と「空間的超解像度（SSR）」モデルで追加のフレームをアップスケールして予測することで、最終的に1280×768ピクセルで128フレーム、毎秒24フレームの動画にする。

動画生成の例。生成されるのは約5.3秒の映像となる

　「Imagen Video」では、スタイルの異なるさまざまなテキストをレンダリング可能。入力したテキストを視認可能なレベルの文字にまでレンダリングできる点は、この拡散モデルの能力を示す特徴の1つともいえる。また、フィンセント・ファン・ゴッホといった著名な芸術家やアーティストのタッチを反映させたり、映像内に3Dモデルを登場させたりもできる。

芸術家やアーティストのタッチを生成

「Imagen Video」は3D構造も理解

　なお、同社は、検出と除外が困難な社会的偏見やステレオタイプに基づくコンテンツが生成される懸念が軽減されるまでは、「Imagen Video」のモデルとそのソースコードは公開しないとしている。

特設サイトにてサンプル映像が公開中