ニュース
Google、ローカルAIが4倍速くなるテキスト生成モデル「DiffusionGemma」を実験的に発表、逐次ではなく一括で生成
「GeForce RTX 5090」で700トークン/秒超を達成
2026年6月11日 10:15
米Google DeepMindは6月10日(現地時間)、実験的なオープンモデル「DiffusionGemma」を公開した。テキスト拡散(text diffusion)と呼ばれる手法を採用したモデルで、GPUで利用した場合、一般的なローカルLLMよりも最大4倍の高速推論を実現。スピードがとくに重要視される対話型のローカルワークフローに適しているという。
一般的な大規模言語モデル(LLM)は、タイプライターのように1トークンずつ順番にテキストを生成していく仕組みとなっている(逐次生成、自己回帰型)。数千のリクエストをまとめて処理するクラウドならば、この仕組みでもハードウェアをフル活用できる。しかし、一人のユーザーがローカルで利用する場合は、処理にかかる時間の大半をユーザーの入力を待つ時間が占め、せっかくのGPU性能を持て余してしまうという問題があった。
そこで、ノイズから始めて反復的に洗練させていくという画像生成AIと似たアプローチ(diffusion)を採用したのが、今回発表された「DiffusionGemma」だ。GPUに大きな仕事のかたまり――256トークンのブロックを丸ごと並列生成――を一度に与えることで、空き時間をなくしてハードウェアの性能を最大限に引き出そうというわけだ。
同社はこれを“タイプライターから、ブロック全体を一度に刷る印刷機へのアップグレード”と表現している。
「DiffusionGemma」は「Gemma 4」をベースに「Gemini Diffusion」の研究成果を組み合わせており、以下の特徴を備える。
- 高速な推論:GPUで最大4倍高速なトークン生成。「NVIDIA H100」1基で1,000トークン/秒超、「GeForce RTX 5090」でも700トークン/秒超を達成
- 手頃なハードウェア要件:基本となる「26B MoE」は、推論時に3.8Bしかアクティブにしない。量子化すればハイエンドコンシューマーGPUのVRAM 18GB以内に収まる
- 双方向アテンション:並列生成される256トークンが互いを参照できるため、インライン編集やコードの穴埋め(infilling)、アミノ酸配列、数式グラフといった非線形な領域に強い
- 自己修正:ブロック全体を一度に評価しながら反復的に出力を洗練し、誤りをリアルタイムで修正できる
「DiffusionGemma」は速度と並列生成を優先した実験的モデルであるため、出力品質は標準の「Gemma 4」より低くなる。また、クラウドで大量のリクエストをさばくなら「Gemma 4」に優位がある。しかし、ローカルで多少の品質より速度を重視したいシナリオでは、「DiffusionGemma」に分がある。また、ファインチューニングによって、数独を解くといった自己回帰型モデルが不得手とするタスクに対応させることも可能だ。
「DiffusionGemma」のモデルウェイトは、現在「Hugging Face」から入手可能。「Apache 2.0」ライセンスで利用できる。「llama.cpp」の公式サポートも近日中に追加されるとのこと。






















