ニュース
「Gemma 4」のメモリ消費を大幅削減する「QAT」、品質はそのままスマホ上でも十分動作
最小の「E2B」は約1GB、最大の「31B」も1/4にまでメモリ削減
2026年6月8日 10:05
米Google DeepMindは6月5日(現地時間)、オープンモデル「Gemma 4」ファミリーの「Quantization-Aware Training」(QAT)チェックポイントを公開した。メモリ使用量を大幅に削減しつつ、モデルの品質を保つことを狙ったもので、「E2B」「E4B」「12B」「26B MoE」「31B」の全モデルが対象。
「Gemma 4」は今年4月の発表以来、推論を高速化する「Multi-Token Prediction」(MTP)の導入や、エンコーダーフリーの「12B」モデルの追加など、着実に機能を拡充してきた。今回の「QAT」リリースはその最新の取り組みとなる。
AIモデルでは大量の数値を扱うが、その精度を保ったままではメモリを大量に消費してしまうという問題がある。そこで、量子化(Quantization)と呼ばれる手法で数値精度を落とす圧縮処理を事前に行うのが一般的だ。この圧縮処理にはトレーニング済みのモデルを事後的に圧縮する「トレーニング後量子化」(PTQ:Post-Training Quantization)が用いられることが多いが、手軽な反面、圧縮の過程で品質が劣化する欠点がある。
そこで考案されたのが、「QAT」(量子化を考慮した学習)だ。これはトレーニングプロセスそのものに量子化シミュレーションを組み込むアプローチで、モデルが精度低下を自ら補正するよう学習するため、「PTQ」と比べてより高い品質を維持できるという。
たとえば、「Gemma 4」ファミリーの既定精度は「BF16」形式(16bit)だが、最小モデル「E2B」でも11.4GBものメモリを要する。しかし、「QAT」を適用した「Q4_0」形式(4bit)ならば2.9 GBで済む。モバイル向けの量子化フォーマット(形式)なら1.1GB、さらにテキストのみとすれば0.84GBしか必要としない。これならば、スマートフォンでの運用も現実的だ。最大モデル「31B」でもたった1/4のメモリで動作する。
ちなみに、モバイル向けの量子化フォーマットでは、エッジデバイスでの効率的な動作を実現するため、以下の工夫も施されているとのこと。
- 静的アクティベーション:スケーリング設定をトレーニング中に事前計算し、モバイルチップの処理負荷を軽減
- チャネル単位の量子化:モバイルアクセラレーターの設計に合わせてデータを構造化し、ネイティブに演算できるように最適化
- 2bitの対象限定量子化:トークン生成レイヤーは2bitに大幅圧縮する一方、推論の核となるレイヤーは高精度を維持
- 埋め込みとKVキャッシュの最適化:アクティブメモリの使用量を削減し、長い会話でもメモリ不足になりにくい
「QAT」チェックポイントは現在、「Hugging Face」からダウンロード可能。「llama.cpp」や「Ollama」、「LM Studio」などのローカルAIアプリで気軽に試すことができる。





















