ニュース

OpenAI初のAIエージェント「Operator」発表

新モデル「CUA」搭載、ユーザーに代わってWebブラウザーを操る

OpenAI初のAIエージェント「Operator」発表

 米OpenAIは1月23日(現地時間)、同社初のAIエージェント「Operator」を発表した。同日より米国の「ChatGPT Pro」向けに研究プレビュー版(operator.chatgpt.com)を公開しており、今後はユーザーからのフィードバックをもとに改善を重ねながら、Plus/Team/Enterpriseユーザーにも拡大し、ChatGPTにも統合予定。

Introduction to Operator & Agents

 「Operator」は、AIがユーザーに代わってWebにアクセスしてタスクを実行するエージェント機能。Webブラウザー(リモートブラウザー)を使用して各種Webページを参照し、入力、クリック、スクロールといった操作を再現し、タスクを自律的に処理する。

 ユーザーは「Operator」に対し、実行したいタスクを説明するだけ。フォームへの記入、食料品の注文、ミームの作成など、さまざまな反復的なブラウザータスクを自動化できる。

ユーザーが与えたタスクをWebブラウザーを使用して実行してくれる

 「Operator」には、新モデル「Computer-Using Agent(CUA)を搭載。GPT-4oの視覚機能と強化学習による高度な推論を組み合わせることで、「CUA」は画面上に表示されるボタン、メニュー、テキストフィールドといったグラフィカルユーザーインターフェイス(GUI)を操作するようにトレーニングされている。

 Webブラウザーをスクリーンショットを通じて「表示」し、マウスとキーボードで可能なすべてのアクションを再現して「対話」できるため、カスタムAPIとの統合を必要とせずにWeb上でアクションを実行可能だという。

 現在は初期段階ということで、CUAには制限もあるとのことだが、問題に遭遇したり間違いを犯したりした場合には、推論機能を活用して自己修正も可能。行き詰まったり支援が必要になったりした場合には、ユーザーに制御を戻すだけで、スムーズで協力的なエクスペリエンスが保証されるとしている。また、ログインや支払い、CAPTCHA認証が必要なタスクについては、ユーザーに引き継ぎを積極的に依頼するようトレーニングされているとのこと。

「Operator」の入力画面

 また、同社は「Operator」の安全性を確保することは最優先事項であるとしており、不正使用を防止し、ユーザーが確実に制御できるように3層の安全対策を施している。

  • Takeover mode
    ログイン認証情報や支払い情報などの機密情報をブラウザーに入力するときに、ユーザーに引き継ぎを要求する。ユーザーが入力した情報を収集したり、スクリーンショットを撮影したりしない
  • Watch mode
    電子メールや金融サービスなど、特に機密性の高いサイトでは、動作を厳密に監視し、ユーザーが潜在的な間違いを直接検出できるようにする
  • ユーザーへの確認とタスクの制限
    注文の送信やメールの送信など、重要なアクションを完了する前に承認を求める。特に銀行取引など、重大な決定を必要とする特定の機密タスクを拒否するようにトレーニングしている

 ほかにも、隠しプロンプトや悪意のあるコード、フィッシングなどを通じて「Operator」を誤解させようとする敵対的なWebサイトに対する防御策も構築しているとのこと。

 なお、同社は、スライドショーの作成やカレンダーの管理といった複雑なインターフェイスでは現在、課題に直面しているということで、「Operator」の機能を継続的に改善していくとしている。「CUA」はAPIで近日中に公開し、開発者が独自のAIエージェントを構築できるようにする予定とのこと。