使ってわかるCopilot+ PC

第11回

写真を見せて「これは何?」で見事に答える「Copilot」

勘違いや回答拒否もあるが、アイデア次第で使い方は広がる

検証に使用した「Copilot+ PC」、「Surface Laptop 13.8インチ(第7世代)」

「Copilot」は画像も扱える

 「Copilot+ PC」の名前にもなっている対話型AI「Copilot」について、先週はテキストを使った方法で基本的な使い方を紹介した。

 今週はさらに進んで、画像を使う方法を紹介したい。「Copilot」はテキストだけでなく、画像や音声などさまざまな形式のデータを扱える。これを「マルチモーダル」と呼ぶ。「Copilot」はマルチモーダルなAIなので、画像も扱える。

 対話型AIである「Copilot」が画像が扱えるとどういうことができるのか、いくつかの例で見ていこう。今できること、できないこともある程度見えてくる。

「これ何だろう?」と思ったら「Copilot」に写真を渡す

 外出している時に気になる物を見つけたり、テレビを見ていて知らない場所が出てきたりした時、それをどうやって調べるかは案外難しい。とりあえず写真を撮影しておいても、何を手掛かりに調べたものかと悩むことになる。

 そこで「Copilot」を使ってみる。今回は一例として、筆者が以前撮影した写真を「Copilot」に渡して質問してみようと思う。

 最初の写真は、千葉県のとあるローカル線の電車。首都圏在住でも知らない方の方が多いと思うし、写真1枚で答えが言える人はなかなかいない。「Copilot」はどうだろうか?

赤い電車と駅舎の写真

 流鉄流山線の電車ですね、くらいの回答が来たら上等だと思ったのだが、「オムライス電車」という名前まで出てきた。この電車は2両編成で、事情により元は別々だった赤と黄色の車輌を繋ぎ合わせたもので、そのカラーリングから「オムライストレイン」と名付けられていた。現在は元通り別々の車輌に戻っており、写真では奥の黄色い車輌は見えないのだが、そこまで言い当ててくる。

 ただ側面には野菜や果物のイラストはないし、特産品のPRのためではない。この辺りは創作か情報が交錯したことによる勘違い(ハルシネーション)っぽいが、それでも写真1点でここまで言い当ててきたのは驚いた。

 ではもうちょっと無茶ぶり。土手と川の写真を1枚だけ渡して、川の名前を聞いてみた。遠くの風景などから推測できなくはないが、筆者が撮影した写真であり、人間で言い当てられる人はほとんどいないと思う。

土手と川の写真

 その通り、これは江戸川だ。しかも千葉県流山市という撮影場所まで合っている。どうやらインターネット上にある写真とテキスト情報を組み合わせて推測したらしい。いかにもAIらしい、そして検索情報を活用する「Copilot」らしい答えだ。

 では、筆者のプロフィール写真を渡したら、誰なのか判断できるだろうか? 記事の最後に写真とともにプロフィールが併記されているので、その情報を検索できればすぐわかるはずだ。

筆者のプロフィール写真だが……?

 ところが答えは「顔がピクセルかされているため特定が難しい」とのこと。アップロードされた画像は顔にぼかしが入っており、誰だかわからないように加工されている。渡した筆者のプロフィール写真を「Copilot」が勝手に加工したのだ。

 これはプライバシー保護を目的としている。例えば、街で撮影した写真から個人を特定するような使われ方をしないように考えられている。写真1枚で個人のプロフィールに簡単にアクセスできるようになっては困るので、こういった配慮が必要になってくるわけだ。

 逆に言えば、個人を特定できる情報でない限りは、とても強力に情報を検索できる。肌の疾患を撮影して「Copilot」に渡し、「これは何の病気が考えられる?」と聞けば、可能性のある病気を調べることもできる。後に病院で写真を見せることもできるので、おすすめの使い方だ。

多彩な指示を理解する高度なAI。どう活用するかを考えるのは人間の仕事

 AIが画像を理解してくれるなら、もっといろいろな使い方が考えられる。筆者が思いついた使い方は、どうしても答えがわからない間違い探しの画像を渡すというもの。試しにファミリーレストラン「ココス」のWebサイトに掲載されている間違い探しを「Copilot」に渡して、間違い探しをやってもらおう。

間違い探しの画像

 回答結果はかなりでたらめで、残念ながら間違い探しは得意ではないようだ。ただここで重要なのは、画像を渡して「間違い探しをして」と言うだけで、こちらの意図を理解してくれているという点だ。

 2枚の別々の画像を渡して「それぞれの画像で違う部分を指摘して」と言えばまだ理解しやすいはず。しかし今回は、上部に文字が入った1枚の画像を渡しただけで、これを左右別々の画像と判定し、違いを見つけ欲しいのだと、こちらの意図を正しく理解している。これだけで結構すごいことだ。

 さらに面白い使い方を試してみよう。今度は画像ではなく、画像が掲載されているWebサイトのURLを渡して、同じ質問をしてみた。

間違い探しの画像があるURLを渡す

 すると、ほぼ同じ答えを返してきた。つまり「Copilot」は、指定されたURLを参照し、その中に間違い探しの画像があることを把握した上で、間違い探しを行ったということだ。答えが違うことに変わりはないが、こういう使い方もできるんだと理解しておくのが重要だ。

 画像を渡して検索する機能は、「Google Lens」など他社の検索機能にも搭載されている。しかし「Copilot」のような対話型AIであれば、検索結果をたどって答えを探しに行く必要はなく、文章で答えを提示してくれる。

 今回は筆者が思いついた範囲での例を紹介したが、画像を使った調べ方は、アイデア次第でまだまだいろんな活用法があるはずだ。AIの挙動を理解し、どう活用ができるのかを考えるのは、人間の仕事だ。皆様もあれこれ考えてみていただきたい。

 また今回は「Copilot+ PC」の話題としてPCで利用した話をしているが、「Copilot」はスマートフォンアプリも用意されている。こちらはアプリから写真を撮影し、音声入力で尋ねるといった使い方もできる。手軽かつ便利に活用できるので、合わせてお試しいただきたい。

著者プロフィール:石田賀津男(いしだ かつお)

1977年生まれ、滋賀県出身

ゲーム専門誌『GAME Watch』(インプレス)の記者を経てフリージャーナリスト。ゲーム等のエンターテイメントと、PC・スマホ・ネットワーク等のIT系にまたがる分野を中心に幅広く執筆中。1990年代からのオンラインゲーマー。窓の杜では連載『初月100円! オススメGame Pass作品』、『週末ゲーム』などを執筆。

・著者Webサイト:https://ougi.net/