ニュース
Google、「Gemma 4 12B」を発表 ~16GBメモリのノートPCでもオンデバイス動作、上位モデルに迫る性能
エンコーダーフリーの新アーキテクチャー採用で実現
2026年6月4日 09:50
米Google DeepMindは6月3日(現地時間)、「Gemma 4 12B」を発表した。オープンモデル「Gemma 4」ファミリーの新顔で、他のモデルにはない特徴をもつ。
「Gemma 4」は、開発者向けワークステーションからノートPC、スマートフォンまで、さまざまなハードウェアでオンデバイス動作するモデル。ローカルモデルでありながら高度な推論とエージェント型ワークフローにも対応する。累計で1億5,000万ダウンロードを突破しており、装着型ロボットアームから企業向けAIセキュリティまで、幅広い分野で活用されている。
今回発表された「12B」の特徴は、マルチモーダル入力の処理に独自のアプローチを採用している点にある。
従来のマルチモーダルモデルは、画像や音声をそれぞれ専用のエンコーダーで変換してからデータをモデルに渡していたが、「Gemma 4 12B」はエンコーダーを撤廃。1つのトランスフォーマーに統合したアーキテクチャー(encoder-free architecture)を採用した。ゆえに「12B Unified」とも呼ばれる。
画像エンコーダーと音声エンコーダーを廃したことのメリットは、前処理にかかっていたレイテンシ(遅延)がなくなり、メモリ使用量が大幅に削減された点にある。中規模モデルとして初めてネイティブ音声入力をサポートしており(「26B MoE」「31B Dense」は未対応)、視覚と音声入力の処理はとくに効率的だ。
「12B Unified」は、16GBのビデオメモリ(VRAM)または統合メモリ(ユニファイドメモリ)があれば、十分にローカル運用が可能。ベンチマークでは「26B MoE」モデルに迫る性能を発揮しつつ、総メモリ使用量は半分以下に抑えられているという。
「12B Unified」は現在、「Hugging Face」「Kaggle」から事前学習済み・指示チューニング済みのチェックポイントとしてダウンロード可能。「LM Studio」「Ollama」などでも試せる。






















