ニュース

AIがPCのGUIを操作可能に! ~Anthropic、強化版「Claude 3.5 Sonnet」を発表

新モデル「Claude 3.5 Haiku」も今月末リリース

人間に代わってAIがスクリーンを見、カーソルを動かしたり、ボタンをクリックしたり、テキストを入力したりといった操作を行えるようにする「コンピューターの使用」(computer use)などの新機能、Anthropicが発表

 米Anthropicは10月23日(日本時間)、アップグレードされた「Claude 3.5 Sonnet」と新モデル「Claude 3.5 Haiku」を発表した。画期的な新機能「コンピューターの使用」(computer use)もパブリックベータとしてAPI経由で提供される。

アップグレードされた「Claude 3.5 Sonnet」

 アップグレードされた「Claude 3.5 Sonnet」は全体的な改善が施されており、とくにもともと得意分野であったコーディング関連で大きな進歩を遂げているという。しかも、価格は従来バージョンから据え置きで、スピードにおいても遜色はない。

 アップグレードされた「Claude 3.5 Sonnet」は現在、すべてのユーザーが利用可能だ。

新モデル「Claude 3.5 Haiku」

 「Claude 3.5 Haiku」は、従来の同社最大モデル「Claude 3 Opus」と同等のパフォーマンスを発揮しつつ、前世代の「Claude 3 Haiku」と同等のコストと速度を実現をしたモデル。「Claude 3.5 Haiku」もコーディングタスクに強く、アップグレードされる前のオ「Claude 3.5 Sonnet」やOpenAI社の「GPT-4o」など、一般に公開されている最先端モデルを用いた多くのエージェントを上回る結果を出しているという。

アップグレードされた「Claude 3.5 Sonnet」は従来より全体的に改善。新モデル「Claude 3.5 Haiku」も前世代のコスト・速度を維持しつつ「Claude 3 Opus」と同等のパフォーマンスを発揮

 「Claude 3.5 Haiku」は今月末にも同社のファーストパーティAPI、「Amazon Bedrock」、Google Cloudの「Vertex AI:を通じて利用可能となる。当初はテキストのみのモデルだが、画像入力に対応する予定だ。

コンピューターの使用(computer use)

 「コンピューターの使用」(computer use)は、人間に代わってAIがスクリーンを見、カーソルを動かしたり、ボタンをクリックしたり、テキストを入力したりといった操作を行えるようにする機能だ。パブリックベータでは、AIモデルに「Claude 3.5 Sonnet」が用いられているとのこと。

人間に代わってAIがスクリーンを見、カーソルを動かしたり、ボタンをクリックしたり、テキストを入力したりといった操作を行えるようにする「コンピューターの使用」(computer use)

 PC上で行う操作を自動化するには、既存のRPA(自動化)ツールで操作ロジックを組んだり、ときには専用のツールを自分で開発しなければならないのが一般的だが、本機能であれば「Claude」に操作方法を教え込んで代わりにやらせるだけでよい。人間のために設計されたツールを、人が行うのと同じ方法でそのまま自動化できるわけだ。

 また、RPAツールはユーザーインターフェイスの細かな変更に弱く、せっかく組んだ自動化ロジックがちょっとしたことで機能しなくなることがある。しかし、本機能なら「スプレッドシートをチェックし、カーソルを移動させてWebブラウザーを開き、関連するウェブページに移動し、それらのページのデータを使ってフォームに記入して」といった比較的あいまいな指示も理解できるため、UI変更への耐性が強いと期待される。反復的なプロセスを正確に自動化する用途以外にも、ソフトウェアを構築・テストしたり、調査やデバッグのために膨大な量のタスクをやらせるといった使い方にも適しているだろう。

 ただし、現時点では不完全なところもあり、たとえばスクロールやドラッグ、ズームといった操作は苦手だという。また、こうした強力過ぎる自動化機能はスパムや詐欺などに悪用される可能性もある。そのため、被害を検知・抑止する仕組みも用意する必要がある。パブリックベータではこうした弱点や課題の改善、克服にも期待したい。