Google Gemma 4 リリースまとめ — 31B Dense / 26B MoE / E4B / E2B のオープンソース4モデル徹底解説

Google Gemma 4 リリースまとめ — 31B Dense / 26B MoE / E4B / E2B のオープンソース4モデル徹底解説

作成日:
更新日:

2026年4月2日、Googleはオープンソースモデル群 「Gemma 4」 を発表しました。Geminiの研究成果をベースに、ローカル/エッジで自由に動かせる4種のモデルを揃えた構成で、最先端クローズドモデルに肩を並べる性能とライセンスの自由度が同時に注目されています。

この記事では、Gemma 4 の4モデルラインナップと性能、特徴をまとめます。

ラインナップ — 4モデル構成

Gemma 4 は以下の4モデルで提供されます。

モデル種別パラメータ想定用途
Gemma 4 31B DenseDense(密行列)310億フラッグシップ、サーバー推論
Gemma 4 26B MoEMixture-of-Experts総260億 / 推論時3.8B有効コスパ重視のサーバー推論
Gemma 4 E4Bエッジ向け約4B相当モバイル・PC・IoTゲートウェイ
Gemma 4 E2Bエッジ向け約2B相当スマートフォン・組込み機器

31B Dense — フラッグシップ

256K の長コンテキストに対応し、1モデルでサーバー側のヘビー推論を担う設計です。マルチモーダル(画像入力)にも対応します。

26B MoE — バリューリーダー

総パラメータ260億のうち、推論時に有効になるのは約3.8B という MoE 構成。31B Dense に近い性能を、より小さい計算コストで実現する位置づけです。

E4B / E2B — エッジ向け

スマートフォンやIoT機器でのローカル推論を意識したエッジモデル。メモリ効率を重視した量子化と、軽量化されたアテンション設計が施されています。

性能ハイライト

公式が示すベンチマーク数値の中で、特に印象的なものを抜粋します。

ベンチマークGemma 4 31B DenseGemma 4 26B MoE
AIME 2026(数学競技)89.2%88.3%
LiveCodeBench v6(コーディング)80.0%
数学スコア向上幅20.8% → 89.2%(前世代比)

ポイントは以下の通りです。

  • 数学競技ベンチで 89.2% という、現行クローズドモデルと並ぶスコア
  • LiveCodeBench v6 で 80.0%、コーディング評価でも実用域
  • 26B MoE は 31B Dense に対して わずかな差で追従、コスパが極めて高い

共通の特徴

4モデル共通で備える特徴を整理します。

  • 思考モード(Thinking Mode):推論ステップを内部で展開して回答品質を高める
  • 関数呼び出し(Function Calling):エージェント用途に標準対応
  • 構造化 JSON 出力:スキーマ準拠の出力を直接生成
  • 140 以上の言語に対応:日本語含むマルチリンガル
  • テキスト+画像入力:すべてのモデルで画像入力に対応

オープンソースライセンスでこれだけの機能が揃ったのは大きく、エージェント基盤としての適性が一気に高まりました。

ローカルで触ってみる

Hugging Face / Ollama / vLLM など、主要なランタイムで配布されています。最もカジュアルに試せるのは Ollama です。

Ollama で Gemma 4 を動かす(例)
ollama pull gemma4:31b
ollama run gemma4:31b "TypeScriptでDebounce関数を書いて"

Hugging Face の Transformers から使うパターンも一般的です。

Transformers で Gemma 4 を呼び出す(例)
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
 
model_id = "google/gemma-4-31b-it"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto",
)
 
prompt = "TypeScriptでDebounce関数を書いて"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

エッジ向けE2B / E4B は、モバイル端末向けランタイム(MediaPipe LLM Inference / llama.cpp など)から呼び出すパスがメインになります。

ユースケース別の使い分け

用途おすすめモデル
GPUサーバーで本格推論31B Dense
GPUサーバーでコスパ重視26B MoE
ノートPC・ローカル開発機E4B
スマートフォン・組込みE2B

エージェントを「サーバー側=31B / 26B MoE、エッジ側=E4B / E2B」という二段構成で組むと、レイテンシ・コスト・プライバシーをバランスよく扱えます。

まとめ

  • 2026年4月2日、Googleが Gemma 4 をオープンソースで公開
  • 31B Dense / 26B MoE / E4B / E2B の4モデル構成
  • AIME 2026 で 89.2%、LiveCodeBench v6 で 80.0% など、性能はクローズドモデル並み
  • 思考モード/関数呼び出し/JSON 出力/140言語/画像入力を 全モデル で対応
  • ローカル推論の選択肢として、もはや見過ごせない存在に

「クローズドAPIに頼らず社内基盤を組みたい」というニーズに対して、Gemma 4 は現実的な答えになり得るラインナップです。

参考リンク