ニュース

「Bing」のAIチャットが画像を使った質問に対応、なにが写っているかを理解して回答

デスクトップとモバイルの両方で展開中

「Bing」のAIチャットがビジュアル検索に対応

 米Microsoftは7月18日(現地時間)、「Bing」のAIチャットがビジュアル検索に対応したと発表した。言葉だけではなく、画像を追加して対話することができる。

 チャットのビジュアル検索(Visual Search in Chat)はOpenAIの「GPT-4」モデルに基づいており、デバイスに保存されている画像やカメラで撮影した写真をアップロードし、Web上からそれに関連するコンテンツを検索することが可能。画像のコンテキストを「Bing」が理解・解釈し、それに関するユーザーからの質問に答えられるようになる。たとえば休暇で新しい都市を訪れたとき、目に留まった建物について質問したり、自宅で冷蔵庫を覗きながら昼食の献立を考えるときなど役立つだろう。

なにが写っているのかを理解して受け答えが可能

 今回リリースされたビジュアル検索のように、テキスト以外にもさまざまなデータをAIの入力ソースとして利用することは「マルチモーダル」と呼ばれており、Googleも次世代モデルAI「Gemini」で取り組んでいる。

 「Bing」のビジュアル検索のライバルとしては「Bard」に導入された「Google レンズ」があるが、今のところ英語のみの対応。「Bing」のビジュアル検索は日本語も扱えるようなので、一歩先んじた格好だ。

 この機能は現在、デスクトップとモバイルの両方で展開中。いずれは「Bing Chat Enterprise」にも展開されるという。