ニュース

Googleの対話型AI「Bard」に“人間の専門家を上回る”次世代生成AIモデル「Gemini」を導入

まずは英語版から。マルチモーダル機能に対応する大規模アップデート

Googleの生成AI「Bard」に大規模アップデート

 米Googleは12月6日(現地時間、以下同)、同社が試験運用中のAIチャットサービス「Bard」に大規模アップデートを実施した。同日に発表された、マルチモーダルでの推論機能を備えた次世代生成AIモデル「Gemini」を特別に調整した「Gemini Pro」を導入し、要約や推論、コーディング、プランニングなどの各種能力を向上させる。現在は、英語版のみの提供となる。

 「Bard」には登場当初、大規模言語モデル「LaMDA」を搭載。その後、多言語対応、推論、コーディングの3点を強化した「PaLM2」に切り替えられた。

 今回、導入された「Gemini」は、マルチモーダル生成AIモデルとしてゼロから構築されており、テキストやコード、オーディオ、画像、ビデオなど、さまざまな種類に及ぶ複数の情報を一般化してシームレスに理解し、操作し、組み合わせることができるという。

 最初のバージョンである「Gemini 1.0」では、 非常に複雑なタスクに対応する最上位の「Gemini Ultra」から、標準モデルの「Gemini Pro」、モバイルデバイス向けの「Gemini Nano」(Androidスマートフォン「Pixel 8 Pro」に搭載)、の3つのサイズに最適化して展開される。

 同社によるベンチマークにおいて、「Gemini Pro」は8つのベンチマークのうち、6つで「GPT-3.5」を上回ったという。このスコアには、大規模AIモデルを測定するための主要な標準の1つである「MMLU(Massive Multitask Language Understanding)」や、小学校の算数推論を測定する「GSM8K」も含まれる。さらに「Gemini Ultra」では、知識と問題解決能力において“人間の専門家を上回るパフォーマンス”を示したとしている。

Hands-on with Gemini: Interacting with multimodal AI

 「Bard」への「Gemini」導入は、2段階で実施される予定となっている。まず12月6日より170以上の国と地域を対象に(利用言語は英語のみ)、新たに「Gemini Pro」を導入。続いて来年2024年初頭には、「Gemini Ultra」による高度な機能にアクセスできる「Bard Advanced」を公開予定としている(テスタープログラムは近日開始予定)。

 なお、12月6日からは、テキストベースのプロンプトにおいて「Gemini Pro」で「Bard」を試すことができる。その他のモダリティへのサポートも近日中に予定されている。今後、ヨーロッパなどさらに多くの言語と地域でも利用できるようになるとのこと。

Mark Rober takes Bard with Gemini Pro for a test flight