
Google Gemma 4 リリースまとめ — 31B Dense / 26B MoE / E4B / E2B のオープンソース4モデル徹底解説
2026年4月2日、Googleはオープンソースモデル群 「Gemma 4」 を発表しました。Geminiの研究成果をベースに、ローカル/エッジで自由に動かせる4種のモデルを揃えた構成で、最先端クローズドモデルに肩を並べる性能とライセンスの自由度が同時に注目されています。
この記事では、Gemma 4 の4モデルラインナップと性能、特徴をまとめます。
ラインナップ — 4モデル構成
Gemma 4 は以下の4モデルで提供されます。
| モデル | 種別 | パラメータ | 想定用途 |
|---|---|---|---|
| Gemma 4 31B Dense | Dense(密行列) | 310億 | フラッグシップ、サーバー推論 |
| Gemma 4 26B MoE | Mixture-of-Experts | 総260億 / 推論時3.8B有効 | コスパ重視のサーバー推論 |
| Gemma 4 E4B | エッジ向け | 約4B相当 | モバイル・PC・IoTゲートウェイ |
| Gemma 4 E2B | エッジ向け | 約2B相当 | スマートフォン・組込み機器 |
31B Dense — フラッグシップ
256K の長コンテキストに対応し、1モデルでサーバー側のヘビー推論を担う設計です。マルチモーダル(画像入力)にも対応します。
26B MoE — バリューリーダー
総パラメータ260億のうち、推論時に有効になるのは約3.8B という MoE 構成。31B Dense に近い性能を、より小さい計算コストで実現する位置づけです。
E4B / E2B — エッジ向け
スマートフォンやIoT機器でのローカル推論を意識したエッジモデル。メモリ効率を重視した量子化と、軽量化されたアテンション設計が施されています。
性能ハイライト
公式が示すベンチマーク数値の中で、特に印象的なものを抜粋します。
| ベンチマーク | Gemma 4 31B Dense | Gemma 4 26B MoE |
|---|---|---|
| AIME 2026(数学競技) | 89.2% | 88.3% |
| LiveCodeBench v6(コーディング) | 80.0% | — |
| 数学スコア向上幅 | 20.8% → 89.2%(前世代比) | — |
ポイントは以下の通りです。
- 数学競技ベンチで 89.2% という、現行クローズドモデルと並ぶスコア
- LiveCodeBench v6 で 80.0%、コーディング評価でも実用域
- 26B MoE は 31B Dense に対して わずかな差で追従、コスパが極めて高い
共通の特徴
4モデル共通で備える特徴を整理します。
- 思考モード(Thinking Mode):推論ステップを内部で展開して回答品質を高める
- 関数呼び出し(Function Calling):エージェント用途に標準対応
- 構造化 JSON 出力:スキーマ準拠の出力を直接生成
- 140 以上の言語に対応:日本語含むマルチリンガル
- テキスト+画像入力:すべてのモデルで画像入力に対応
オープンソースライセンスでこれだけの機能が揃ったのは大きく、エージェント基盤としての適性が一気に高まりました。
ローカルで触ってみる
Hugging Face / Ollama / vLLM など、主要なランタイムで配布されています。最もカジュアルに試せるのは Ollama です。
ollama pull gemma4:31b
ollama run gemma4:31b "TypeScriptでDebounce関数を書いて"Hugging Face の Transformers から使うパターンも一般的です。
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
model_id = "google/gemma-4-31b-it"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto",
)
prompt = "TypeScriptでDebounce関数を書いて"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))エッジ向けE2B / E4B は、モバイル端末向けランタイム(MediaPipe LLM Inference / llama.cpp など)から呼び出すパスがメインになります。
ユースケース別の使い分け
| 用途 | おすすめモデル |
|---|---|
| GPUサーバーで本格推論 | 31B Dense |
| GPUサーバーでコスパ重視 | 26B MoE |
| ノートPC・ローカル開発機 | E4B |
| スマートフォン・組込み | E2B |
エージェントを「サーバー側=31B / 26B MoE、エッジ側=E4B / E2B」という二段構成で組むと、レイテンシ・コスト・プライバシーをバランスよく扱えます。
まとめ
- 2026年4月2日、Googleが Gemma 4 をオープンソースで公開
- 31B Dense / 26B MoE / E4B / E2B の4モデル構成
- AIME 2026 で 89.2%、LiveCodeBench v6 で 80.0% など、性能はクローズドモデル並み
- 思考モード/関数呼び出し/JSON 出力/140言語/画像入力を 全モデル で対応
- ローカル推論の選択肢として、もはや見過ごせない存在に
「クローズドAPIに頼らず社内基盤を組みたい」というニーズに対して、Gemma 4 は現実的な答えになり得るラインナップです。