
Google DiffusionGemma - 拡散モデルでテキストを「並列生成」する実験的オープンモデル
LLMは「1トークンずつ、左から右へ」生成するもの——その常識に一石を投じるのが Google DiffusionGemma です。2026年6月10日、Google DeepMind が公開したこのオープンウェイトモデルは、画像生成でおなじみの「拡散(diffusion)」をテキストに応用し、複数トークンを並列に生成します。この記事では、何が新しいのかを Google 公式情報を一次ソースに整理します。
DiffusionGemma とは
- 提供: Google DeepMind(Gemma 4 と Gemini Diffusion 研究が基盤)。2026年6月10日公開
- ライセンス: Apache 2.0 のオープンウェイト。Hugging Face / Kaggle / Vertex AI Model Garden / NVIDIA NIM で配布
- 位置づけ: Google が明確に「experimental(実験的)」と表明。速度重視のワークロード向けで、品質重視の本番には Gemma 4 を推奨
- ランタイム: vLLM が「初の dLLM(diffusion LLM)」としてネイティブ対応。MLX / Transformers / llama.cpp なども
通常のGemma 4とは生成方式そのものが異なる、という点が肝です。
自己回帰 vs 拡散: 何が違うのか
従来の LLM(autoregressive)は、トークンを1個ずつ順番に予測します。DiffusionGemma は、ノイズで埋めた「キャンバス」を一気にデノイズして文章を立ち上げます。
| 側面 | 自己回帰(Gemma 4 等) | DiffusionGemma |
|---|---|---|
| 生成順序 | 1トークンずつ左→右に逐次 | 256トークンを並列に反復デノイズ |
| 開始点 | 空のシーケンス | ランダムトークン256個のキャンバス |
| アテンション | 因果的(片方向) | 双方向(bidirectional) |
| 修正 | 確定した過去トークンは固定 | 任意の位置を再ノイズ化して修正可 |
| ボトルネック | メモリ帯域 | 計算 |
仕組み: Uniform State Diffusion
DiffusionGemma の拡散は Uniform State Diffusion という離散拡散の一種です。
- いわゆる Masked Diffusion(
[MASK]を埋める)とは違い、ノイズはボキャブラリからのランダムなトークン置換で導入される - 256個のランダムトークンでキャンバスを初期化し、全トークンを並列に反復デノイズして整える
- 各ステップで確信度の高いトークンは確定(ロック)し、残りを精緻化。推奨は最大 48 デノイズステップ
- 1つの Gemma 4 26B モデルが、入力エンコード時は因果アテンション、生成時は双方向アテンションへと動的に切り替える
「左から右」という制約がないため、文全体を見ながら同時に整えるイメージです。画像拡散が「ノイズ画像を徐々に絵にする」のと同じ発想を、トークン列に当てはめたものと考えると掴みやすいです。
スペック
- 26B の MoE構成(推論時のアクティブは 3.8B)。基盤は Gemma 4 26B 系
- BF16 と NVFP4(4ビット浮動小数点)をネイティブ対応。量子化時は VRAM 18GB 未満
- 入力はテキスト・画像・動画(音声は非対応)
アクティブ3.8B+NVFP4で、ローカルでも動かしやすいのが特徴です(ランタイムの選択はローカルLLMランタイム比較も参照)。
速度: 並列生成の威力
最大の売りはスループットです。Google 公式は「最大4倍高速」と表現しています。
| 環境 | スループット |
|---|---|
| NVIDIA H100(vLLM / FP8) | 約 1,008 トークン/秒(自己回帰比 約5倍) |
| NVIDIA H200(FP8) | 約 1,288 トークン/秒 |
| NVIDIA RTX 5090 | 700+ トークン/秒 |
NOTE
「最大4倍」は Google 公式の一般的な比較値で、vLLM 実装では5〜6倍の報告もあります。一方、低スペック環境では数値が大きく下がります(環境依存)。速度は並列デノイズに由来し、メモリ帯域がボトルネックになりやすい自己回帰とは効き方が異なります。
トレードオフ: 品質は Gemma 4 に劣る
速い代わりに、出力品質は通常の Gemma 4 より低いと Google が明言しています。
- MMLU Pro: 約 77.6%(Gemma 4 は約 82.6%)
- AIME 2026: 69.1(Gemma 4 は 88.3)と、推論系で差が大きい
- 文書系の一部ベンチでは DiffusionGemma が上回る例もある
WARNING
これらのベンチ数値は二次情報での報告を含み、最終的な確認は公式ドキュメントで行ってください。確かなのは Google の方針——「実験的」で速度重視向け、品質が要る本番は Gemma 4 を推奨——という位置づけです。
なぜ注目されるのか
拡散テキスト生成は、低レイテンシと並列性に強みがあります。トークンを順番待ちせず一括で立ち上げられるため、速さが効くワークロード(大量の短文生成、リライト、補完など)で価値が出ます。自己回帰一辺倒だった LLM に、別アーキテクチャの選択肢がオープンウェイトで加わった意義は大きいといえます。
まとめ
- DiffusionGemma は Google DeepMind の拡散方式テキスト生成モデル(2026-06-10、Apache 2.0、実験的)
- 自己回帰の「1トークンずつ」ではなく、256トークンを並列にデノイズ。双方向アテンション・Uniform State Diffusion
- 26B MoE(アクティブ3.8B)/ NVFP4 / VRAM18GB未満。vLLM が初の dLLM として対応
- 速度は H100で約1,000トークン/秒(最大4倍〜報告で5〜6倍)。ただし品質は Gemma 4 に劣る
- 速度重視は DiffusionGemma、品質重視は Gemma 4 という使い分け
「テキストも拡散で作れる」という発想は、推論の常識を揺らします。まだ実験的ですが、並列生成という別ルートがオープンに使えるようになったこと自体が、これからのLLMの幅を広げそうです。


