柳谷智宣のAI ウォッチ!
人間が悩むUIはAIも悩む。OpenAIのAIエージェント「Operator」を一足先に使い倒してみた
来たるAIエージェント時代に備える[前編]
2025年2月12日 09:00
2025年1月23日、OpenAIからAIエージェント「Operator」が発表された。ユーザーの指示に基づいてWeb上のタスクを自動的に実行できるというものだ。
ChatGPT Proユーザー向けに提供されているが、現在のところアメリカのユーザーしか利用できない。今回は一足先に使い倒すことができたので、「Operator」でどんなことができるのか紹介しよう。
スクリーンショットをChatGPT-4oが分析して操作を進める「CUA」
OpenAIが発表した新機能「Operator」は、ユーザーの代わりにWebブラウザーを操作してタスクを実行するAIエージェントだ。
従来のAPIベースのプラグインとは異なり、「Operator」は人間と同様に「ブラウザーの画面を見て」「マウスやキーボードを使用する」ことで、予約や購買などの手続きを自動化する。これは、GPT-4oをもとにした新モデル「CUA(Computer Using Agent)」によって実現されている。実際にスクリーンショットを撮り、その画像をGPT-4oが見て判断しているのだ。
「Operator」はユーザーからの指示を受け取ると、クラウド上で新たにブラウザーを立ち上げる。この仮想ブラウザーは、マウスやキーボード操作を含むすべてのアクションをAI自身が行う仕組みになっている。
発表時のデモでは、ユーザーが「OpenTableでレストランを予約して」「Instacartで食材を購入して」と命じると、Operatorは該当するサイトへアクセスし、予約フォームに入力したり、商品を検索してカートに入れたりしていた。さらに、買い物や予約で必須となるログインなどの手続きは、ユーザーが[Take control]というボタンでブラウザー操作を一時的に引き継ぎ、自分のアカウント情報を入力することで完了できる。ログイン後は再度Operatorに制御を渡せば、自動操作に戻って続きの処理をしてくれるのだ。
もちろん、予約や購入といった確定処理が必要な段階では、Operatorがユーザーに「本当に注文していいか」「この座席で確定するか」といった確認を促してくる。ユーザーが承認すれば、自動的に支払いページや予約完了画面まで進み、不必要ならキャンセルすることも可能だ。
Operatorを支える「CUA」は画面のピクセル情報を認識して、次に何をクリックすべきか、どこに文字を入力すべきかを判断できるように訓練されている。これは、まるで人間が画面を見ながら操作するのと同じ感覚であり、特定のサイト向けのAPIを用意する必要がない。つまり、APIの存在しないWebサイトにも対応できるという利点がある。
AIエージェント「Operator」に買い物をしてもらう
では、早速利用してみよう。
「Operator」のWebページにアクセスすると、ウェルカムメッセージが開く。研究用のプレビューだということをはじめ、いろいろな注意点が表示される。
特に、株式やデジタル通貨などの投資取引を助長する行為をしないように書かれているのが面白かった。皆、賢いChatGPTに株式の取引をしてもらいたがっているのを知っているようだ。ちなみに、日本からアクセスすると「あなたの国はまだ準備中」と表示される。
まずは「アマゾンジャパンで柳谷智宣の最新の単行本を購入して」と入力してみた。
OpenAIの技術者は「現在は英語環境に最適化されているので、アマゾンと入力すると、Amazon.comにつながるため、Amazon.co.jpを使うように指示すべき」と言っていた。そのため、わざとアマゾンジャパンと入れている。また、操作中のUIも勝手に英語にしてしまうという。これは、日本でリリースされる時には修正されているだろう。
プロンプトを入力すると、ブラウザーのスクリーンショットが表示され、操作を開始する。アマゾンのWebページを開き、検索していくのが面白い。
Operatorが見つけたと提示してきたのが、10年以上前に書いたDropboxの本だったので、ChatGPTの本を探してと言ったところ、正解を見つけてきた。続けて「1,760円だが、購入処理を続けるか?」と聞いてくる。
Operatorは、自動処理する性能を備えているものの、ユーザーが不利益を被らないように、クリティカルな操作の前には確認するように設計されている。
処理を進めるように指示すると、画面が切り替わり、コントロールがユーザーに戻される。ブラウザー画面内を自分で操作してログインしよう。そして、画面下の[Finish up]をクリックすればよい。ちなみに、動作中は任意のタイミングで[Take Control]をクリックすれば、操作権を取り戻すことができる。
ログインすると即購入された。購入前にはもう一度確認があるかなと思ったが、処理が自動で進んでしまったので驚いた。
お酒は購入できず。UIが難しいと操作に詰まることもある
やり取りは英語だったが、日本語は通じるし、何なら「日本語で応答してください」と頼めば、日本語で返ってくる。
そこは「ChatGPT」なので、指示は柔軟に理解してくれるし、問題ない。他の人に口頭で指示しているのと変わらない印象だった。
さらに、今度は楽天でショッピングしてみる。好きなウイスキーを買ってもらおうと思ったら、「Operator」の動作前に拒否された。アメリカのサービスらしく、アルコールの購入に関しては厳しいらしい。残念。
そこで「美味しいチーズを買って」と指示してみた。「楽天で」としか書いていないが、きちんと日本のショッピングモールに入って検索し、おいしそうな燻製チーズを発見。
そのまま購入手続きを進めてもらう。ラッピングや送料に関して確認が来たので「ラッピングは不要、送料は了解」と返事すると、きちんと確認のプルダウンメニューを操作してくれた。
しかし「お届け日を指定する必要がありますが、カレンダーが表示されません」と表示される。「Operator」のブラウザーだから誤動作しているのかと[Take Control]をクリックして自分で操作してみたところ、やはりカレンダーなどは開かない。最終的に、ギフトボックスを選ばなければならなかったことに気が付いた。
人間が困惑するUIはAIにも伝わらないんだな、と納得した。これは、今後のUI設計に影響を与えそうだ。
何でもできるかというといま一歩。日本リリースまでのチューニングに期待
Operatorは旅行もアテンドできるのだろうか。
試しに「京都に旅行したい」と言ったら「そんな情報では手伝えない」と返されたので、しっかりと希望や条件を伝えると、検索がはじまった。また、何も指定しないと、微妙な旅行サイトやチケットサイトを使ってしまうので、「新幹線予約はスマートEXで」などとあらかじめ指定した方がよい。これは、人に頼むときも同じことが起きるので仕方がない。
いろいろと試したのだが、国内の旅行関係のWebサイトではうまく動作しないことが多かった。特に、日付の選択でうまくいかない。たしかに、サイトによってまちまちのUIを採用している上、使い勝手が悪いこともあるので、AIも使えない感じだった。国内旅行なのに海外旅行のページに飛んでしまったり、いろいろと日本向けのチューニングが必要なようだ。
ほかには「インプレスで執筆した新しい記事をピックアップして」と入れたら、本連載の記事を2つ見つけてきた。これはうまくいったのだが、インプレスなどと媒体を指定しないと、無茶苦茶な結果になってしまった。
まだまだいろいろなタスクを試したのだが、失敗することも多かった。
これはまだプレビュー版なのでもちろん仕方がない。日本向けにリリースされるまでにはブラッシュアップされることだろう。しかも、現時点で他のAIエージェントよりはずっと柔軟に賢く動作していることも確か。人間にはまだ及ばないものの、OpenAIのことだからあっという間に性能を向上させてくることだろう。
「Operator」は、まずはアメリカ国内のChatGPT Proユーザー向けに公開され、数カ月以内にPlusユーザーにも提供される計画とのこと。日本やヨーロッパなど他の地域への展開は時間を要するとされている。「Operator」に搭載されるCUAモデルのAPIの公開準備も進められており、数週間後には開発者向けの提供を開始する予定だという。現在はまだ限られたユーザーのみが利用できるが、今後さらに機能が洗練され、より多彩なWebサイトやサービスへの対応が期待される。
以上が、最新AIエージェント「Operator」のレビューとなる。いますぐに人間の作業を代替するものではないが、超絶便利に使える日は遠くなさそう。RPAをはじめ、既存のデジタルサービスに甚大な影響を与えそうだし、リスクも小さくない。そのあたりの議論点については、後編で紹介する予定だ。
著者プロフィール:柳谷 智宣
IT・ビジネス関連のライター。キャリアは26年目で、デジタルガジェットからWebサービス、コンシューマー製品からエンタープライズ製品まで幅広く手掛ける。近年はAI、SaaS、DX領域に注力している。日々、大量の原稿を執筆しており、生成AIがないと仕事をさばけない状態になっている。
・著者Webサイト:https://prof.yanagiya.biz/