ニュース

Google、Webブラウザーを操作するAI「Gemini 2.5 Computer Use」を発表

ワークフローの自動化や、UIテストの効率化などに向け

Google、「Gemini 2.5 Computer Use」を発表

 米Googleは10月7日(現地時間)、「Gemini 2.5 Computer Use」を発表した。同社の最新鋭AIモデル「Gemini 2.5 Pro」をベースにWebブラウザーの操作に特化させたもので、AIエージェントでも人間と同じようなGUI操作が可能となる。

 従来のAIモデルは推論やコンテンツの生成といった処理にフォーカスしていたが、AIエージェントに実際の業務を任せるには、スクリーンに映っているものを解釈し、フォームの入力、ボタンの操作、スクロールといったGUI操作を行う能力が必要となる。ドロップダウンやフィルターといった操作に応じて変化するインターフェイスを扱ったり、Webサイトにログインして状況が変化しても対応できる柔軟性も要求される。

 「Gemini 2.5 Computer Use」は、ユーザーリクエスト・スクリーンショット・直近の操作履歴といった入力をもとに、クリック・入力・スクロールなどのUIアクション関数の呼び出しを出力する。初期タスクからスクリーンショットを得て、モデルにそれを入力し、出力されたアクションをクライアントアプリ(Webブラウザー)で実行し、スクリーンショットを撮り、再びモデルへ入力する……というループを繰り返し、与えられた作業を完了するまで行うわけだ。

 ただし、購入などの一部重要な操作に関しては、ユーザーによる確認が必須となっている。勝手に支払いが行われたりすることはない。

「Gemini 2.5 Computer Use」の処理の流れ

 同社によると、「Gemini 2.5 Computer Use」はUI操作の精度を計測するベンチマークテストで、他の主要なAIモデルよりも優れた成績をおさめているとのこと。とくに「Online-Mind2Web」では低レイテンシを維持しつつ、高い制度を実現できているという。ワークフローの自動化や、UIテストの効率化などに役立つだろう。

他の主要なAIモデルよりも優れた成績をおさめる

 「Gemini 2.5 Computer Use」は現在、パブリックプレビューとして「Gemini API」経由で利用可能。「Google AI Studio」「Vertex AI」からもアクセスできるほか、「Browserbase」でホストされているデモで実際の動作を体験することもできる。

「Browserbase」でホストされているデモ。「Google 検索」でNVIDIAの株価を調べる

 なお、「Gemini 2.5 Computer Use」は今のところWebの操作に特化しているが、モバイルアプリの操作も期待できるとのこと。デスクトップOSの操作はまだ行えないとのことだが、今後の改善に期待したい。