ニュース

「Gemma 4」のメモリ消費を大幅削減する「QAT」、品質はそのままスマホ上でも十分動作

最小の「E2B」は約1GB、最大の「31B」も1/4にまでメモリ削減

樽井秀人

2026年6月8日 10:05

「Gemma 4」のQATモデルが公開

　米Google DeepMindは6月5日（現地時間）、オープンモデル「Gemma 4」ファミリーの「Quantization-Aware Training」（QAT）チェックポイントを公開した。メモリ使用量を大幅に削減しつつ、モデルの品質を保つことを狙ったもので、「E2B」「E4B」「12B」「26B MoE」「31B」の全モデルが対象。

　「Gemma 4」は今年4月の発表以来、推論を高速化する「Multi-Token Prediction」（MTP）の導入や、エンコーダーフリーの「12B」モデルの追加など、着実に機能を拡充してきた。今回の「QAT」リリースはその最新の取り組みとなる。

　AIモデルでは大量の数値を扱うが、その精度を保ったままではメモリを大量に消費してしまうという問題がある。そこで、量子化（Quantization）と呼ばれる手法で数値精度を落とす圧縮処理を事前に行うのが一般的だ。この圧縮処理にはトレーニング済みのモデルを事後的に圧縮する「トレーニング後量子化」（PTQ：Post-Training Quantization）が用いられることが多いが、手軽な反面、圧縮の過程で品質が劣化する欠点がある。

　そこで考案されたのが、「QAT」（量子化を考慮した学習）だ。これはトレーニングプロセスそのものに量子化シミュレーションを組み込むアプローチで、モデルが精度低下を自ら補正するよう学習するため、「PTQ」と比べてより高い品質を維持できるという。

　たとえば、「Gemma 4」ファミリーの既定精度は「BF16」形式（16bit）だが、最小モデル「E2B」でも11.4GBものメモリを要する。しかし、「QAT」を適用した「Q4_0」形式（4bit）ならば2.9 GBで済む。モバイル向けの量子化フォーマット（形式）なら1.1GB、さらにテキストのみとすれば0.84GBしか必要としない。これならば、スマートフォンでの運用も現実的だ。最大モデル「31B」でもたった1/4のメモリで動作する。