柳谷智宣のAI ウォッチ！

動画生成AIは戦国時代へ、覇権を握るのは誰だ!? ～画像生成の王者Midjourneyが「V1」でついに参戦

Google AIもいよいよ本領発揮！動画生成の“いま”［後編］

柳谷智宣

2025年6月25日 09:00

　本連載「柳谷智宣のAI ウォッチ！」では、いま話題のAI（生成AI）を活用したサービスを中心に取り上げていく（基本的に1サービスにつき前後編を予定）。今回は動画生成技術の現在地と創造性の未来を主要AIサービスから紐解いてみる。

「Midjourney」で静止画を起点に動画を生成できるようになった

　2025年6月現在、動画生成AIの世界は、米国や中国の巨大テック企業から気鋭のスタートアップまで、数多くのプレイヤーが独自の武器を手にしのぎを削る、まさに群雄割拠の様相を呈している。

　今回のシリーズでは、前編で、Google DeepMindが放った最新の動画生成モデル「Veo 3」について詳しく紹介した。

　後編となる本稿では、画像生成AIの王者「Midjourney」が市場に投じた初の動画モデル「V1」も含め、現在注目すべき主要な動画生成AIを紹介する。動画生成AIの技術、実用化に向けた課題、そして未来までをチェックしてみよう。

画像生成の王者が投じた次の一手、Midjourney「V1」

　テキストから画像を生成する分野で、独特の芸術的センスと高品質なアウトプットによって不動の地位を築いてきた「Midjourney」が、2025年6月19日、ついに動画生成の領域へと足を踏み入れた。

　動画モデル「V1」は、ほかの多くのモデルが目指すテキストからの直接的な動画生成（Text-to-Video）とは異なり、Midjourneyが最も得意とする静止画を起点とする「Image-to-Video（i2v）」というワークフローに特化しているのが特徴だ。ユーザーは自身で生成したMidjourneyの画像や手持ちの画像をアップロードし、そのイメージを動かすことで映像が生み出される。ゼロから世界を構築するのではなく、完成された一枚の絵に生命を吹き込むという、まさにMidjourneyにぴったりのこだわりといえる。

　V1は、一度の指示で5秒間の動画を4本同時に生成する仕様となっている。ユーザーは動画の動きの激しさを「Low motion（緩やかな動き）」と「High motion（激しい動き）」の2段階から選択できるほか、プロンプトで動きを指示することもできる。

　動画1秒あたりの生成コストは、Midjourneyの画像1枚分に相当するクレジット消費とされており、月額10米ドル（約1,600円）のBasicプランからこの新機能を利用できる。さらに、月額60米ドルのProプランや120米ドルのMegaプランに加入しているユーザーは、生成速度が低速になる代わりにクレジットを消費しない「Relaxモード」を無制限に利用でき、コストを気にせず創作活動に没頭できるのがありがたい。

プロンプト：力強く羽ばたいて空を飛ぶシルバードラゴン

群雄割拠の市場をリードする注目の動画生成AI

　Veo 3やMidjourney V1の登場でさらに熱を帯びる動画生成AI市場だが、そのほかにも個性豊かで強力なモデルが数多く存在する。

　ここでは、現在の市場を理解する上で欠かせない、主要な4つのサービスを紹介する。それぞれが異なる強みとターゲットユーザーを持ち、この分野の多様性と奥深さを象徴している。

Runway

　まずは、プロの映像制作者から高い評価を得ているRunway社の「Runway Gen-4」。テキストや画像から動画を生成する際に、極めて高い忠実度と、映像全体を通してキャラクターやオブジェクトの見た目が破綻しない一貫性を実現しているのがウリだ。

　現実世界に即した自然な動きや物理法則の表現にも優れており、映画レベルの映像制作を目指すユーザーにとって強力なツールとなる。無料でも125クレジット（約25秒分）を試せるが、本格的に利用するなら月額12米ドルからの有料プランが必要になる。

Pika

　次に、一般クリエイターやSNSユーザーから絶大な支持を集めているのが「Pika」（Pika Labs）だ。テキスト、画像、さらには既存の動画まで、多彩な入力形式に対応しており、アニメ風から実写風まで、あらゆるスタイルを高品質に生成できる。

　DiscordやWebブラウザーから手軽に利用できる簡単な操作性も人気の理由。無料プランでも毎月クレジットが付与されるため、多くのユーザーが気軽に試せるのも魅力だ。急成長中のスタートアップで、2023年後半の登場からわずか1年ちょっとで1,100万人以上の利用者を獲得した。

kling

　中国発のモデルとして無視できない存在が、ショート動画プラットフォーム「快手（Kuaishou）」が開発した「Kling」だ。最大で1080pの高解像度動画を10秒間生成できる。

　独自のDiffusion Transformerアーキテクチャーで物理世界の法則を正確にシミュレートする能力に長けており、リアルな映像表現で多くのユーザーを驚かせている。最大4つの要素（キャラクター、オブジェクト、背景など）を自由に組み合わせられるElements機能が便利だ。

Sora

　もちろん、OpenAIが開発した「Sora」も見逃せない。最大の特徴は、生成される映像の圧倒的な品質と、指示文への忠実性だ。

　ユーザーが入力した詳細なプロンプトにもとづき、最大20秒という比較的長尺で、リアルな動画を生成する。ストーリーボード機能やリカット・リミックス機能を備えており、シーンごとの細やかな制御や既存動画の部分的な修正、新たなテイストの付与など、柔軟な編集が行える。ただし、登場した昨年2024年12月の時点ではハイエンドだったが、現在ではややクオリティでライバルに見劣りするようになってしまった。

魔法のような動画生成AIを支える「拡散モデル」

　テキストや画像から精巧な動画が生成される仕組みは一見すると魔法のようだ。「犬が公園で遊んでいる」と文字で指示するだけで、本物そっくりの映像が数分で完成する。この驚異的な技術の正体は、実は私たちが日常的に行っている「掃除」と似たプロセスにある。

　動画生成技術は「拡散モデル」と呼ばれる手法にもとづいている。普通の動画制作とは真逆の発想で、まずは大量の映像データを集め、意図的にノイズを大量に加え、完全にぐちゃぐちゃな状態にしてしまう。片付いている部屋をあえて徹底的に散らかすようなものだ。

　次に、AIは散らかった状態から元の映像を復元する方法を学習する。人間が部屋を少しずつ片付けていくように、AIもノイズを段階的に取り除いて、最終的にクリーンで意味のある映像を再構築できるようになる。この掃除工程を何億回も練習することで、AIは最終的に何もない状態から美しい動画を生み出せるようになる。

「拡散モデル」の仕組み（画像はChatGPTで生成）

　静止画の生成と動画生成で異なるのは、時間の流れを自然に表現しなければならない点だ。1枚1枚の絵が美しくても、パラパラ漫画のようにページをめくったときに動きがぎこちなければ、違和感を覚えてしまう。そこで、動画生成AIには隣り合うフレーム同士が互いの情報を参照し合い、動きの一貫性を保つ「テンポラル（時間）アテンション層」という技術が採用されている。

　AIがノイズを除去する過程では、テキストプロンプトを参考にしながら作業が進められる。AIの内部では「クロスアテンション」という仕組みも働いており、プロンプトの単語一つひとつの意味と、生成中の映像の各部分を関連付けている。例えば「犬」という言葉を読み取ったAIは、映像の中で犬らしい形や動きを作り出す部分により多くの注意（アテンション）を向け、指示に沿った内容になるようにノイズ除去の方向性を調整していく。

　近年、条件付き生成の技術がさらに進化し、テキストだけでなく、元になる画像やキャラクターの骨格、さらには奥行きの情報といった、より複雑な指示を組み合わせることで、制作者の意図を細かく反映した動画生成が可能になっている。

輝かしい未来の影、動画生成AIが乗り越えるべき6つの壁

　飛躍的な進歩を遂げている動画生成AIだが、2025年現在、実用化に向けて乗り越えなければならない技術的、社会的な課題も山積している。

　個人的にはとてつもないレベルに到達していると感じているが、本当に、映像作品として商用化するにはまだクオリティ不足という指摘がある。例えば、短い動画クリップでは滑らかな動きを実現できるAIモデルが増えたものの、10秒を超える長さや複雑なアクションシーンでは、キャラクターの動きが途中でカクついたり、背景のオブジェクトが不自然に変形したりと、時間的な一貫性が崩れるケースが見られる。また、人間の顔や手など細部の崩れという、画像生成AIから引き継がれた課題もある。

　また、解像度が低い、もしくは生成時間が長いのもネックだ。高解像度で長時間の動画を生成するには、計算コストが指数関数的に増大するため、現状ではほとんどのサービスが数秒から十数秒程度のHD画質動画の生成を上限としている。

　技術的な問題だけでなく、社会的な側面にも課題は多い。例を挙げると、多くのサービスの無料プランでは生成物の商用利用が禁止されており、有料プランであっても利用規約はサービスごとに異なる。また、AIが学習したデータに含まれるコンテンツの著作権や、生成された動画自体の権利の所在も法的にグレーな部分が多く、企業が広告などに利用するには慎重な判断が求められる。

　2025年6月には、ディズニーやマーベルなどの大手企業がMidjourney社に対し、自社のキャラクターを無断で学習・生成したとして提訴した。これは、AIの学習プロセスそのものの正当性を問うものであり、動画生成AIも決して無関係ではない。また、悪意を持って作られたフェイク動画が社会的な混乱を引き起こすリスクも常に存在しており、技術の発展とともに、それを規制する法整備や倫理的なガイドラインの確立が急務となっている。

Midjourneyに「ダースベイダーが日本の家のリビングでコーヒーを飲んでいる」と入力してみた結果……

アイデアが映像になる時代へ、創造性の翼を手に入れるために

　2025年の動画生成AI市場は技術的な進化と市場競争が激化する変革の真っ只中にある。今後数年で、AIモデルの効率化とハードウェアの進化によって生成スピードは飛躍的に向上し、ほぼリアルタイムでアイデアを映像化できる時代が到来するだろう。

　そして、クオリティはさらに向上し、3D空間の生成やVR/MRコンテンツとも融合し、SF映画のような世界が具現化するはず。競争の激化は、動画生成AIサービスのコモディティ化と低価格化を促進し、基本的な動画生成機能は誰もが当たり前に使えるツールになっていくだろう。

　この新たな創造の時代に乗り遅れないために、これから動画生成AIを試してみたいと考えている読者には、まず気軽に第一歩を踏み出してみることを強くお勧めする。

　いきなり完璧な作品を目指す必要はない。まずは興味を持ったサービスに登録し、「公園を走る柴犬」といったシンプルなプロンプトから、短いクリップを生成してみてほしい。AIが出力する、思いもよらない美しい映像に、きっと驚きと感動を覚えるはずだ。もちろん、くれぐれもディープフェイクや著作権違反の動画には手を出さないように注意してほしい。

　動画生成AIは、まだ発展途上の技術ではあるが、頭の中にある漠然としたイメージや物語の断片を、具体的な映像として目の前に現出させてくれる魔法のようなツールだ。絶対に楽しいので、気軽に創作の面白さ体感してみて欲しい。