ニュース

Googleの新AIモデル「Gemini Omni」が発表 ~まずはNano Bananaの動画版、自然言語で生成・編集可能に

現実世界の物理法則への理解が向上、複雑なアイデアも形に

Googleの新AIモデル「Gemini Omni」、まずは動画から

 米Googleは5月19日(現地時間)、開発者向けカンファレンス「Google I/O 2026」において、新AIモデル「Gemini Omni」を発表した。Geminiの推論能力と創造能力を融合させた新しいモデルで、動画をはじめ“あらゆる入力”から“あらゆるもの”を創造できると謳う。

 「Gemini Omni」では、まずは画像・音声・映像・テキストを入力として組み合わせ、Geminiの実世界に関する知識にもとづいた高品質な動画を生成可能。また、対話(自然言語)を通じて生成した動画を簡単に編集することも可能だ。自然言語を使い、あらゆる段階で作品を構築し、微調整できる点から、同社は「Gemini Omni」をAI画像生成/写真編集ツール「Nano Banana」の動画版であると位置づけている。

 主な特長は下記の通り。今後、画像や音声などの出力形式にも対応していく予定とのこと。

  • 入力した動画にもとづいて、見た目・動作、または効果を変更する
  • アクションを再考する
  • 画像をもとに実際の動画を編集する
  • 複数回に分けて編集し、一貫性を保持する
  • 自然言語を使って、異なるオブジェクトや文字を入れ替える
  • 現実世界の物理法則に従う出力を生成する
  • 現実世界の歴史、科学、数学を活用する
  • テキストと画面上のアクションを同期させる
  • 複数の入力を組み合わせる
  • 動きとスタイルを転送する
  • 参照画像と文字またはオブジェクトを入れ替える
  • 絵を動画に変換する

 複雑なアイデアであっても正確な動画として形にできる「Gemini Omni」は、リアルなシーンを作り出すだけでなく、次に何が起こるべきかも推論する。

 重力、運動エネルギー、流体力学といった力(物理学)に対する直感的な理解が向上しており、連鎖反応のように軌道上を高速で転がるビー玉の滑らかな連続ショットといった、よりリアルなシーンを作成できるほか、Geminiが持つ歴史、科学、文化的な背景に関する知識を組み合わせることで、クレイアニメーションによるタンパク質折り畳みの解説動画なども生成できるという。

 安全性についても、「Gemini Omni」で作成されたすべての動画には、目に見えないデジタル透かし「SynthID」および「C2PA」のコンテンツ認証情報が含まれる。Geminiアプリ、Chrome版Gemini、Google検索を使うことで、その動画が「Gemini Omni」で生成されたかを簡単に確認できる(近日中に同様の機能を提供開始予定)。

 なお、今回の「Google I/O 2026」では、Omniファミリー初のモデルとして「Gemini Omni Flash」が、5月19日(現地時間)より「Gemini」アプリと「Google Flow」を通じて、世界中のGoogle AI Plus、Pro、Ultraの全加入者を対象に提供開始されることが発表された。また、今週よりYouTube ShortsおよびYouTube Createアプリのユーザーにも無料で提供されるほか、APIを通じて開発者やエンタープライズ向けにも今後数週間以内に提供される予定となっている。