ニュース

Google、「Gemma 4 12B」を発表～16GBメモリのノートPCでもオンデバイス動作、上位モデルに迫る性能

エンコーダーフリーの新アーキテクチャー採用で実現

樽井秀人

2026年6月4日 09:50

「Gemma 4 12B」が公開

　米Google DeepMindは6月3日（現地時間）、「Gemma 4 12B」を発表した。オープンモデル「Gemma 4」ファミリーの新顔で、他のモデルにはない特徴をもつ。

　「Gemma 4」は、開発者向けワークステーションからノートPC、スマートフォンまで、さまざまなハードウェアでオンデバイス動作するモデル。ローカルモデルでありながら高度な推論とエージェント型ワークフローにも対応する。累計で1億5,000万ダウンロードを突破しており、装着型ロボットアームから企業向けAIセキュリティまで、幅広い分野で活用されている。

　今回発表された「12B」の特徴は、マルチモーダル入力の処理に独自のアプローチを採用している点にある。

　従来のマルチモーダルモデルは、画像や音声をそれぞれ専用のエンコーダーで変換してからデータをモデルに渡していたが、「Gemma 4 12B」はエンコーダーを撤廃。1つのトランスフォーマーに統合したアーキテクチャー（encoder-free architecture）を採用した。ゆえに「12B Unified」とも呼ばれる。

　画像エンコーダーと音声エンコーダーを廃したことのメリットは、前処理にかかっていたレイテンシ（遅延）がなくなり、メモリ使用量が大幅に削減された点にある。中規模モデルとして初めてネイティブ音声入力をサポートしており（「26B MoE」「31B Dense」は未対応）、視覚と音声入力の処理はとくに効率的だ。

　「12B Unified」は、16GBのビデオメモリ（VRAM）または統合メモリ（ユニファイドメモリ）があれば、十分にローカル運用が可能。ベンチマークでは「26B MoE」モデルに迫る性能を発揮しつつ、総メモリ使用量は半分以下に抑えられているという。