ニュース

動画生成AIに新境地! Stability AI「Stable Video 4D」発表、同社初のvideo-to-video生成モデル

たった1つの動画から、8つの異なるアングルの動画を作れる

Stability AI、動画生成AI「Stable Video 4D」を発表

 英Stability AIは7月24日(現地時間)、動画生成AI「Stable Video 4D」を発表した。研究段階の同モデルは現在「Hugging Face」で利用可能。将来的には継続的な改良を経て、ゲーム開発、動画編集、VRなどへの応用が期待されている。

 「Stable Video 4D」は、ユーザーが1つの動画をアップロードするだけで、新たに8つの異なるアングルの動画を生成するAIモデル。同社としては初のvideo-to-video生成モデルとなる。1回の推論で、8つの視点にわたって5フレームの動画を約40秒で生成することができ、全体の4D最適化には約20~25分を要する。ユーザーはカメラアングルを指定可能で、特定のクリエイティブなニーズに合わせて出力を調整できる。

 基盤モデルは、画像を動画に変換する「Stable Video Diffusion」で、「Stable Video 4D」では動画を入力として受け取り、異なる視点から複数の新しいアングルの動画を生成する。

 画像拡散モデル、動画拡散モデル、マルチビュー拡散モデルの組み合わせから、サンプリングを必要とする以前のアプローチとは異なり、「Stable Video 4D」は複数の新しいアングルの動画を同時に生成可能。これにより、空間軸と時間軸での一貫性が大幅に向上する。

 また同機能は、複数のアングルとタイムスタンプにわたってオブジェクトの外観の一貫性を確保するだけでなく、複数の拡散モデルを使用する煩雑なスコア蒸留サンプリング(SDS)なしで、よりシンプルな4D最適化フレームワークを可能にしている。

 なお、同社は「Stable Video 4D」モデルの改良に積極的に取り組んでいるとのことで、現在、学習に使用されている合成データセットを超えて、より幅広い実世界の動画を扱えるよう最適化を進めているとしている。