Google DiffusionGemma - 拡散モデルでテキストを「並列生成」する実験的オープンモデル

Google DiffusionGemma - 拡散モデルでテキストを「並列生成」する実験的オープンモデル

作成日:
読了:8
更新日:

LLMは「1トークンずつ、左から右へ」生成するもの——その常識に一石を投じるのが Google DiffusionGemma です。2026年6月10日、Google DeepMind が公開したこのオープンウェイトモデルは、画像生成でおなじみの「拡散(diffusion)」をテキストに応用し、複数トークンを並列に生成します。この記事では、何が新しいのかを Google 公式情報を一次ソースに整理します。

DiffusionGemma とは

  • 提供: Google DeepMind(Gemma 4 と Gemini Diffusion 研究が基盤)。2026年6月10日公開
  • ライセンス: Apache 2.0 のオープンウェイト。Hugging Face / Kaggle / Vertex AI Model Garden / NVIDIA NIM で配布
  • 位置づけ: Google が明確に「experimental(実験的)」と表明。速度重視のワークロード向けで、品質重視の本番には Gemma 4 を推奨
  • ランタイム: vLLM が「初の dLLM(diffusion LLM)」としてネイティブ対応。MLX / Transformers / llama.cpp なども

通常のGemma 4とは生成方式そのものが異なる、という点が肝です。

自己回帰 vs 拡散: 何が違うのか

従来の LLM(autoregressive)は、トークンを1個ずつ順番に予測します。DiffusionGemma は、ノイズで埋めた「キャンバス」を一気にデノイズして文章を立ち上げます。

側面自己回帰(Gemma 4 等)DiffusionGemma
生成順序1トークンずつ左→右に逐次256トークンを並列に反復デノイズ
開始点空のシーケンスランダムトークン256個のキャンバス
アテンション因果的(片方向)双方向(bidirectional)
修正確定した過去トークンは固定任意の位置を再ノイズ化して修正可
ボトルネックメモリ帯域計算

仕組み: Uniform State Diffusion

DiffusionGemma の拡散は Uniform State Diffusion という離散拡散の一種です。

  • いわゆる Masked Diffusion([MASK] を埋める)とは違い、ノイズはボキャブラリからのランダムなトークン置換で導入される
  • 256個のランダムトークンでキャンバスを初期化し、全トークンを並列に反復デノイズして整える
  • 各ステップで確信度の高いトークンは確定(ロック)し、残りを精緻化。推奨は最大 48 デノイズステップ
  • 1つの Gemma 4 26B モデルが、入力エンコード時は因果アテンション、生成時は双方向アテンションへと動的に切り替える

「左から右」という制約がないため、文全体を見ながら同時に整えるイメージです。画像拡散が「ノイズ画像を徐々に絵にする」のと同じ発想を、トークン列に当てはめたものと考えると掴みやすいです。

スペック

  • 26B の MoE構成(推論時のアクティブは 3.8B)。基盤は Gemma 4 26B 系
  • BF16 と NVFP4(4ビット浮動小数点)をネイティブ対応。量子化時は VRAM 18GB 未満
  • 入力はテキスト・画像・動画(音声は非対応)

アクティブ3.8B+NVFP4で、ローカルでも動かしやすいのが特徴です(ランタイムの選択はローカルLLMランタイム比較も参照)。

速度: 並列生成の威力

最大の売りはスループットです。Google 公式は「最大4倍高速」と表現しています。

環境スループット
NVIDIA H100(vLLM / FP8)1,008 トークン/秒(自己回帰比 約5倍)
NVIDIA H200(FP8)約 1,288 トークン/秒
NVIDIA RTX 5090700+ トークン/秒

NOTE

「最大4倍」は Google 公式の一般的な比較値で、vLLM 実装では5〜6倍の報告もあります。一方、低スペック環境では数値が大きく下がります(環境依存)。速度は並列デノイズに由来し、メモリ帯域がボトルネックになりやすい自己回帰とは効き方が異なります。

トレードオフ: 品質は Gemma 4 に劣る

速い代わりに、出力品質は通常の Gemma 4 より低いと Google が明言しています。

  • MMLU Pro: 約 77.6%(Gemma 4 は約 82.6%)
  • AIME 2026: 69.1(Gemma 4 は 88.3)と、推論系で差が大きい
  • 文書系の一部ベンチでは DiffusionGemma が上回る例もある

WARNING

これらのベンチ数値は二次情報での報告を含み、最終的な確認は公式ドキュメントで行ってください。確かなのは Google の方針——「実験的」で速度重視向け、品質が要る本番は Gemma 4 を推奨——という位置づけです。

なぜ注目されるのか

拡散テキスト生成は、低レイテンシ並列性に強みがあります。トークンを順番待ちせず一括で立ち上げられるため、速さが効くワークロード(大量の短文生成、リライト、補完など)で価値が出ます。自己回帰一辺倒だった LLM に、別アーキテクチャの選択肢がオープンウェイトで加わった意義は大きいといえます。

まとめ

  • DiffusionGemma は Google DeepMind の拡散方式テキスト生成モデル(2026-06-10、Apache 2.0、実験的)
  • 自己回帰の「1トークンずつ」ではなく、256トークンを並列にデノイズ。双方向アテンション・Uniform State Diffusion
  • 26B MoE(アクティブ3.8B)/ NVFP4 / VRAM18GB未満。vLLM が初の dLLM として対応
  • 速度は H100で約1,000トークン/秒(最大4倍〜報告で5〜6倍)。ただし品質は Gemma 4 に劣る
  • 速度重視は DiffusionGemma、品質重視は Gemma 4 という使い分け

「テキストも拡散で作れる」という発想は、推論の常識を揺らします。まだ実験的ですが、並列生成という別ルートがオープンに使えるようになったこと自体が、これからのLLMの幅を広げそうです。

参考リンク

Google Gemma 4 リリースまとめ — 31B Dense / 26B MoE / E4B / E2B のオープンソース4モデル徹底解説

Google Gemma 4 リリースまとめ — 31B Dense / 26B MoE / E4B / E2B のオープンソース4モデル徹底解説

6

2026年4月2日、Googleがオープンソースモデル群「Gemma 4」を発表。31B Denseフラッグシップ、26B MoE、エッジ向けのE4B/E2Bという4モデル構成、AIME 2026で89.2%、LiveCodeBench v6で80.0%という性能、思考モード/関数呼び出し/140言語対応などの特徴を整理します。

Gemini 3.5 Flash - 高速・低価格でコーディングとエージェントを強化(Pro はプレビュー)

Gemini 3.5 Flash - 高速・低価格でコーディングとエージェントを強化(Pro はプレビュー)

7

Google が2026年5月19日の I/O で一般提供を開始した Gemini 3.5 Flash を、公式情報を一次ソースに整理します。1Mトークンのコンテキスト、4段階の thinking、入力 $1.50 / 出力 $9.00 という価格、Terminal-Bench 2.1 や MCP Atlas などコーディング・エージェント系での向上、そして「3.1 Flash の3倍の価格」という注意点まで。あわせて、まだ GA していない Gemini 3.5 Pro(2Mコンテキスト・Deep Think、プレビュー段階)の現状も正確に区別して解説します。

GLM-5.2 - GPT-5.5を一部上回るMITオープンウェイトのコーディングモデル(1Mコンテキスト)

GLM-5.2 - GPT-5.5を一部上回るMITオープンウェイトのコーディングモデル(1Mコンテキスト)

7

Zhipu AI(Z.ai)が2026年6月13日に公開した GLM-5.2 は、ウェイトを MIT ライセンスで配布する 744B 規模(アクティブ約40B)の MoE コーディングモデルです。1M トークンのコンテキスト、SWE-bench Pro 62.1 でオープンウェイトとして初めて GPT-5.5 を上回ったとされる評価、GPT-5.5 比でおよそ1/6という API 価格、ローカル実行(量子化)まで、Z.ai 公式・Hugging Face を一次ソースに、誇張せず注意点込みで整理します。