柳谷智宣のAI ウォッチ!

映像制作ツール「Google Flow」×「Veo 3」のつかいかた ~バグはあるが動画生成AIの未来が見えた!

Google AIがいよいよ本領発揮! 動画生成の“いま”[前編]

 本連載「柳谷智宣のAI ウォッチ!」では、いま話題のAI(生成AI)を活用したサービスを中心に取り上げていく(基本的に1サービスにつき前後編を予定)。今回はGoogleの動画生成AI「Veo 3」とAI映像制作ツール「Flow」を取り上げる。
GoogleのAI映像制作ツール「Flow」。テキストプロンプトから音声付き動画を生成できるってホント?

 2025年5月20日に開催されたGoogle I/O 2025にて、Googleは新しい動画生成AI「Veo 3」と動画生成ツール「Flow」を発表した。Google DeepMindの最先端AIモデルであるVeoとImagen、Geminiを統合したAI映像制作ツールとして開発された「Flow」は、テキストプロンプトから音声付きの動画を生成し、編集まで一貫して行えるのが特徴だ。

 最近、動画生成AIの性能が急激に高まっているが、会話や効果音、BGM、環境音を同時に生成できるのはすごい。イベントのデモでは実際にショートムービーを作っていたが、さて、本当に素人でもあのような映像作品が作れるのだろうか。早速試してみた。

月に100本以上生成するなら月額3万6,400円のGoogle AI Ultraプランが必要

 「Flow」では、画像生成AIの「Imagen 4」と動画生成AIの「Veo 3」、「Gemini」を統合して利用できる。

 「Veo 3」は、Googleが開発した第三世代の動画生成AIモデルで、映像と同時に音声を生成できるのが特徴だ。これまでの動画生成AIは映像のみを生成し、音声は後から別途追加する必要があったが、Veo 3は環境音、効果音、さらには人物の対話まで含めた包括的な動画コンテンツを一度に生成できる。マルチモーダルに強いGoogleのAIがいよいよ本領発揮というわけだ。

 ただし、Veo 3やFlowを利用するには、Googleが提供する有料プランへの加入が必要だ。

 執筆現在は「Google AI Pro」(月額2,900円、初月無料)と「Google AI Ultra」(月額3万6,400円、初回3カ月は半額)の2つのプランがあり、それぞれ利用できる機能や生成できる回数が異なる。なお、Google Workspaceのアカウントでは利用できない上、これらのプランを契約することもできなかった。ここはとても不便なところなので改善して欲しい。

新しくなった2つのGoogle AIプラン

 Google AI Proプランは月に1,000クレジット、Google AI Ultraプランは1万2,500クレジットが付与される。FlowでVeo 3の動画を1本生成するのに100クレジット消費するので、それぞれ月に10本と120本を生成できるイメージだ。クレジットは追加購入することもできる。

 リリース直後の反響は大きかったようで、Google DeepMindのCEOであるDemis Hassabis氏によると、ローンチからわずか数日で数百万本のAI動画が生成されたという。

テキストから音声付き動画を生成できる「Flow」を試してみる

 早速、Flow(labs.google/flow/about)にアクセスして動画を生成してみよう。

 まずは新規プロジェクトを作成し、画面下の入力フォームで[テキストから動画]を選択。生成数やAIモデルを選び、プロンプトを入力すれば動画が生成される。動画の長さは8秒だ。

Flowにログインした画面。[新しいプロジェクト]をクリックする

 いまのところは英語でプロンプトを入れなければならない。Geminiなどで翻訳してもらおう。

 AIモデルは[Fast]と[Quality]が「Veo 2」で、[Highest Quality(Experimental Audio)]が「Veo 3」となる。Veo 3の消費クレジットは100なので、まずは[Fast]でプロンプトがうまく動作するかどうかを確認するとよいだろう。

[テキストから動画]を選択し、プロンプトを入力する

 ここでは、森の中で熊がリンゴの栄養について熱く語る動画を作ってもらった。[Fast]で問題なく生成できそうだったので、同じプロンプトで[Highest Quality(Experimental Audio)]を選択。しばらく待つと動画が生成された。

[Fast]モードで動画が生成された。良さげなので本番生成する
【プロンプト】

In a quiet forest. Birds are crying, leaves are rustling in the wind, and a river is babbling in the distance. A realistic bear doll is holding an apple and talking about the nutritional value of apples. When he finishes talking, he takes a bite of the apple.(静かな森の中。鳥の鳴き声、葉が風で揺れる音、遠くの川のせせらぎ。リアルな熊の人形がリンゴを片手に、リンゴの栄養について語っている。語り終わったら、リンゴをかじる)

 動画はFlow上で再生でき、もちろん音も入っている。

 鳥の鳴き声やリンゴをかじる音はもちろん、熊も「Apples are a great source of fiber and vitamin C, which are important for a healthy digestive system and immune system.」と手振りをつけてしっかりと話している。発音も完ぺき。セリフを指定することも可能だ。ただし、日本語には対応していない。ローマ字で読み上げさせれば日本語を話させることもできるが、違和感はある。これはなる早の対応を期待したい。

720pの動画。音声が入っている

 さて、動画のクオリティなのだが、ハマると驚くほどリアリティのある映像が生成される。シンプルな構図だけでなく、いろいろなシーンを描写できるし、音声もしっかり付けてくれる。熊が話すときはリップシンクもするし、かじる音もぴったりのタイミングになっている。

 ただし、AIっぽさはある。単に筆者の研究不足だとは思うが、Googleのデモにあるようなハイクオリティな動画が生成できる確率は低いように感じる。

 FlowとVeo 3は、技術的に4Kまで対応できるそうだが、現時点では720pで生成される。[↓]ボタンをクリックすれば、動画ファイルをダウンロードできる。その際、480pのGIFアニメーションや1080pのアップスケールも選べる。1080pにアップスケールする際にクレジットが消費されないのは嬉しいのだが、音声が消えてしまう。バグだとは思うが、映像制作ツールと謳うなら至急直して欲しいところ。

ダウンロードメニューからダウンロード形式を選ぶ
1080pにアップスケールした動画。音声が消えている

 ちなみに、Google AI Proプランで利用する場合、「AI」という可視ウォーターマークが付いてしまう。Google AI UltraプランユーザーがFlow経由で生成する場合は、この可視ウォーターマークがつかないというメリットがある。どちらの場合も、Google独自の「SynthID」という不可視のデジタルすかしは埋められるので覚えておこう。

 そういえば、Googleのデモでは、老人と車、金色の鶏の画像をアップロード・生成し、その素材を使って動画を作っていた。そこで、生成AIで豪華なレッドカーペットの部屋と女性の画像を生成し、筆者の写真と一緒に3枚の画像をアップロード。「鷹を腕に止めた男性と女性が腕を組んで歩く」というプロンプトを入力してみた。

「動画の素材」モードで筆者と女性とレッドカーペットの画像をアップして動画を生成してみる

 しかし、Veo 3で生成しようと思ったらエラーになり、強制的にVeo 2になってしまった。もちろん、Veo 2では音声は生成されないので肩透かしだ。ショートフィルムを作れるというのであれば、ここも音声ありにしてほしいところ。

 とはいえ、実際に試してみたところ、本当に筆者と美女がレッドカーペットを歩いている動画ができた。ほかにも、ロッククライミングをさせたり、ダンスをさせたりするのも簡単にできた。自分に権利のある画像しか利用できないが、当然無視する人も出てくるだろう。ちょっとディープフェイク動画のハードルが下がり過ぎて怖い。

筆者がレッドカーペットを歩いている動画。音声はなし

「Flow TV」で他の人が作ったいい感じの作品をチェックしてみる

 他の人がどんな映像作品を作っているのかを見たければ「Flow TV」(labs.google/flow/tv/)にて、誰でも無料で閲覧できる。

「Flow TV」で他の人の作品を閲覧できる

 いまのところVeo 2の動画になるが、それでもすごいクオリティの作品が多い。プロンプトも見ることができるので、参考にしてみよう。プロンプトをコピーし、自分が作りたい内容に修正を加えたり、音声の指示を追加したりして、遊んでいるうちに、効くプロンプトの勘所がつかめてくるだろう。

[Prompt]スイッチをONにすると、プロンプトを確認できる

 エレベーターの中にダチョウがいる面白い動画があったので、プロンプトをマネして“柴犬”に変更してみたが、今回は4回もやり直した。「犬がいても人間は動じない」と書いたのだが、本当に身動きしなかったり、柴犬に耳をかかせたのだが、サウンドだけで映像は動かなかったりしたのだ。

 4回目で、音声付きで動きのある映像にはなったものの、男性がほとんど動かないなど、完ぺきではない。あと10回でも調整すれば、出来のよい動画がでてきそうだ。しかし、生成には時間がかかるし、Google AI Ultraプランでも120回しか生成できないので、どこかで妥協は必要だろう。

動物を柴犬に変えて生成してみた

「シーンビルダー」で動画を繋げて生成してみる

 Flowには「シーンビルダー(Scene Builder)」という機能もある。これは生成した動画をつなぎ合わせて、編集・拡張した新たな映像作品を作ることができる。Googleのデモのように、用意した素材から作りたかったが、音声が付かないなら仕方がない。普通にテキストから生成してみることにした。

 ここでは「Flow TV」で見つけた犬が走る動画がよかったので、そのプロンプトを「Gemini」に頼んで3つの動画用に分割し、サウンドエフェクトが付くように仕立ててもらった。

起点となる動画を生成する

 犬が山を走る動画が生成された。Geminiが風切り音を入れるように指示したからか、途中で雑音のようなものが入ってしまったが、なかなかリアルな映像ができた。

 続きを生成する際は、動画の最後のフレームを保存して「フレームから動画」モードで読み込ませればよい。左側の「+」が生成する動画の最初のフレーム、右側が最後のフレームとなる。カメラアイコンをクリックすると、パンやティルト、ドリーアウトなどのカメラワークを指定できる。

1番目の動画の最後のフレームをアセットとして保存する
保存したフレームを指定して次のプロンプトを入力する

 この作業を繰り返して3本の動画を作成した。ちなみに、サウンドエフェクトが変だったり、画面切り替えがうまくいかなかったりして、それぞれ2回ずつ再生成させている。

柴犬が疾走する3本の動画を作成できたので[ダウンロード]をクリック

 想定していたシーンは柴犬が山を走っていて、カメラが反転してビルを駆け上り、さらに反転して地下鉄を疾走するというもの。しかし、ビルの走り方やシーンの切り替えに違和感がある。

 とはいえ、8秒が3本分で、24秒の音声付き動画が作れるというのは感動もの。もしもSNSにアップしてバズらせるようなクオリティにするなら、さらなるプロンプトの研究とクレジットを大量に使った試行錯誤が必要になりそうだ。

 そして、最後にまた大きなバグがある。シーンビルダーから統合した動画をエクスポートできるのだが、音声が消えてしまうのだ。今回は、生成した3本の動画を個別にダウンロードして合体させた。

今回は個別にダウンロードした動画を合体させた

 以上が、FlowとVeo 3のレビューとなる。

 ダウンロードやアップスケールをする際に無音になってしまうなど、細かい部分のブラッシュアップに期待したいところだが、それでも音声付き動画をテキストプロンプトで生成できる衝撃は大きかった。現時点でも、いいプロンプトで生成ガチャを回しまくれば、高品質な動画を生成できる。

 今すぐに「Flowを使って映画が作れるのか」と言われれば、正直まだだと思う。しかし、これはまだローンチして1カ月も経っていないサービスなのだから、今後もどんどん改善されていくことだろう。映画が作れるクオリティにも、近い将来というか、今年中には到達するのではないだろうか。

 「いつか映像作品をAIで作ってみたい」と思っているなら、いまのうちから「Flow」×「Veo 3」を使い、動画生成AIスキルを身に着けておくことをお勧めしたい。

著者プロフィール:柳谷 智宣

IT・ビジネス関連のライター。キャリアは26年目で、デジタルガジェットからWebサービス、コンシューマー製品からエンタープライズ製品まで幅広く手掛ける。近年はAI、SaaS、DX領域に注力している。日々、大量の原稿を執筆しており、生成AIがないと仕事をさばけない状態になっている。

・著者Webサイト:https://prof.yanagiya.biz/

柳谷智宣のAI ウォッチ! 記事一覧