ニュース

「Gemini 3.5 Flash」がPC操作能力を獲得、「Computer Use」をネイティブ統合

Web、モバイル、デスクトップ横断で「見て・考えて・操作する」エージェントを構築可能

「Gemini 3.5 Flash」に「Computer Use」がネイティブ統合

 米Googleは6月24日(現地時間)、「Gemini 3.5 Flash」に「Computer Use」機能を統合したと発表した。「Gemini API」や「Gemini Enterprise Agent Platform」を通じて利用できる。

 「Computer Use」は、AIモデルがWebブラウザーやアプリの画面を“見て”、ユーザーの代わりに“操作”する機能。「Gemini 2.5」ではこれを組み込んだ専用モデル「Gemini 2.5 Computer Use」が提供されていたが、「Gemini 3.5 Flash」ではこれがネイティブ統合された。「Computer Use」のために専用モデルを選ぶ必要はなくなる。

 「Gemini」はもともと、関数呼び出し(function calling)や、検索・マップを根拠として使う組み込みツールを得意としている。これに「Computer Use」が加わったことで、開発者は「3.5 Flash」で Webブラウザー、モバイル、デスクトップを横断しながら「見て・考えて・操作する」カスタムエージェント をより手軽に、より確実に構築できるようになる。長い手順を要するタスクやエンタープライズレベルの自動化処理でも、性能の向上が見込めるだろう。

「Computer Use」能力を測る「OSWorld-Verified」。軽量・高速な「Flash」モデルにもかかわらず、「Gemini 3.5 Flash」は健闘している

 ライブ環境で動作するAIエージェントにはプロンプトインジェクション(不正な指示の注入)のリスクが伴うが、「3.5 Flash」内蔵の「Computer Use」ではターゲットを絞った敵対的トレーニングが実施されており、安全性にも配慮されている。

 また、企業向けに2つのオプションのセーフガード(保護機構)も用意される。

  • 機微な操作や取り消せない操作には、ユーザーの明示的な確認を必須にする
  • 間接的なプロンプトインジェクションを検知した場合は、タスクを自動的に停止する

 同社は多層防御(defense-in-depth)の考え方に基づき、これらの保護機能を安全なサンドボックスや人間による確認、厳格なアクセス制御と組み合わせて用いることを推奨している。

 「3.5 Flash」に統合された「Computer Use」は、デモ環境で体感することもできる。