GLM-5.2 - GPT-5.5を一部上回るMITオープンウェイトのコーディングモデル(1Mコンテキスト)

GLM-5.2 - GPT-5.5を一部上回るMITオープンウェイトのコーディングモデル(1Mコンテキスト)

作成日:
読了:7
更新日:

オープンウェイトのコーディングモデルが、ついに一部のベンチで GPT-5.5 を上回りました。Zhipu AI(国際ブランド Z.ai)が公開した GLM-5.2 は、MIT ライセンスでウェイトを配り、1M トークンのコンテキストを持つコーディング特化モデルです。話題先行になりやすいので、この記事では Z.ai 公式・Hugging Face を一次ソースに、誇張せず注意点込みで整理します。

GLM-5.2 とは

  • 公開: 2026年6月13日にウェイト公開、6月16日に API 価格と公式スコアカードを公開
  • 提供: Zhipu AI(清華大学発、北京)/ Z.ai
  • ライセンス: ウェイトは MIT(地域制限なし)、コードリポジトリは Apache-2.0。どちらも商用可
  • 配布: Hugging Face(zai-org/GLM-5.2)、GitHub、Z.ai API / GLM Coding Plan

コンセプトは「Vibe Coding から Agentic Engineering へ」。コーディングとエージェント実行に振った設計です。

スペック

項目
総パラメータ744B(一部ソースは753Bと表記)の MoE
アクティブ40B(1トークンあたり)
アーキテクチャMoE + Dynamic Sparse Attention + IndexShare
コンテキスト1M トークン(5.1 の約200Kから5倍)
API 価格入力 $1.40 / 出力 $4.40(per 1M tokens)

総パラメータは大きい(744B級)一方、推論時はアクティブ約40Bなので、動作コストは40B級に近づけつつ大規模モデルの知識を引き出す、という MoE の典型です。IndexShare(数層ごとに sparse attention のインデックスを共有)で、1M コンテキスト時の per-token 計算量を抑えています。

NOTE

総パラメータは公式 GitHub / Artificial Analysis が 744B、HF ブログ等が753Bと、ソース間で表記揺れがあります。本記事は744Bを基本に「約740–750B規模」と捉えてください。

ベンチマーク(注意して読む)

WARNING

ローンチ時(6/13)はベンチ数値が一切公開されませんでした。 「1位」「GPT-5.5超え」という評価は6/16以降の公式スコアカードと独立評価に基づく後追いの話です。さらにベンチの選び方で印象が変わる点(後述)にも注意してください。

ベンチGLM-5.2Claude Opus 4.8GPT-5.5
SWE-bench Pro62.169.258.6
Terminal-Bench 2.181.085.0
FrontierSWE74.4%75.4%72.6%
  • SWE-bench Pro でオープンウェイトとして初めて GPT-5.5 を上回ったとされ、「最強オープンの中で首位級」という位置づけ
  • ただし Claude Opus 4.8 には複数指標で僅差で及ばない
  • 別指標(SWE-Marathon)では Opus 4.8 の約半分という報告もあり、ベンチ次第で評価は変わる

コスト: GPT-5.5比およそ1/6

API の出力単価 $4.40 / 1M は、GPT-5.5 の出力 $30 / 1M に対しておよそ 1/6。これが「安い」と話題の根拠です。

WARNING

「1/6」は主に出力トークン単価の比です。GLM-5.2 はトークン消費量が多め(同クラス開放モデルで効率は低い側)との指摘があり、タスク全体のコストでは差が縮む可能性があります。ローカル実行ならホスティング費用も別途かかります。コストは「単価」ではなく「タスク単位」で見積もるのが安全です。

使い方

API(Z.ai)か、ウェイトを落としてローカル/自前サーバーで動かせます。

vLLM / SGLang で起動
vllm serve "zai-org/GLM-5.2"
python3 -m sglang.launch_server --model-path "zai-org/GLM-5.2"

NOTE

フル精度は約1.51TBで一般的なローカル環境には非現実的です。量子化版(GGUF / MXFP4 等)が出ており、2bit GGUF で約238GBまで圧縮、256GB統合メモリの Mac などでの実行報告があります。ランタイム選びはローカルLLMランタイム比較も参照。

位置づけ

  • 1M コンテキスト + エージェント向け RL + MIT の組み合わせが差別化点
  • MiniMax M3はより軽量・ローカル向き、GLM-5.2 はコーディングベンチ上位、と棲み分け
  • 「拡散方式」で速度に振ったDiffusionGemmaとは方向性が異なり、GLM-5.2 は品質・長コンテキスト・エージェント寄り

まとめ

  • GLM-5.2 は Z.ai のMIT オープンウェイト・コーディングモデル(2026-06-13、744B級MoE/アクティブ約40B、1Mコンテキスト)
  • SWE-bench Pro 62.1 でオープンとして初めて GPT-5.5 超えとされるが、Opus 4.8 には僅差で及ばず、ベンチ次第で印象は変わる
  • API 出力単価は GPT-5.5 比およそ1/6。ただしトークン消費が多めでタスク単位では差が縮みうる
  • フルは約1.51TBで、ローカルは量子化前提
  • ローンチ時はベンチ非公開だった点も含め、数字は出典と前提を確かめて読む

「オープンウェイトでもフロンティアに肉薄」という流れを象徴する一手です。過度な万能視は禁物ですが、長コンテキストのコーディング/エージェント用途で、手元に置ける選択肢が増えた意義は大きいといえます。

参考リンク

Gemini 3.5 Flash - 高速・低価格でコーディングとエージェントを強化(Pro はプレビュー)

Gemini 3.5 Flash - 高速・低価格でコーディングとエージェントを強化(Pro はプレビュー)

7

Google が2026年5月19日の I/O で一般提供を開始した Gemini 3.5 Flash を、公式情報を一次ソースに整理します。1Mトークンのコンテキスト、4段階の thinking、入力 $1.50 / 出力 $9.00 という価格、Terminal-Bench 2.1 や MCP Atlas などコーディング・エージェント系での向上、そして「3.1 Flash の3倍の価格」という注意点まで。あわせて、まだ GA していない Gemini 3.5 Pro(2Mコンテキスト・Deep Think、プレビュー段階)の現状も正確に区別して解説します。

Google DiffusionGemma - 拡散モデルでテキストを「並列生成」する実験的オープンモデル

Google DiffusionGemma - 拡散モデルでテキストを「並列生成」する実験的オープンモデル

8

Google DeepMind が2026年6月10日に公開した DiffusionGemma は、テキストを1トークンずつ左から右へ生成する従来の自己回帰(autoregressive)方式ではなく、ノイズから複数トークンを並列にデノイズして生成する「拡散(diffusion)」方式のオープンウェイトモデルです。仕組み(Uniform State Diffusion・双方向アテンション・256トークンの並列デノイズ)、H100で1,000トークン/秒超という速度、Gemma 4 比での品質トレードオフ、実験的という位置づけまで、Google 公式情報を一次ソースに整理します。

Google Gemma 4 リリースまとめ — 31B Dense / 26B MoE / E4B / E2B のオープンソース4モデル徹底解説

Google Gemma 4 リリースまとめ — 31B Dense / 26B MoE / E4B / E2B のオープンソース4モデル徹底解説

6

2026年4月2日、Googleがオープンソースモデル群「Gemma 4」を発表。31B Denseフラッグシップ、26B MoE、エッジ向けのE4B/E2Bという4モデル構成、AIME 2026で89.2%、LiveCodeBench v6で80.0%という性能、思考モード/関数呼び出し/140言語対応などの特徴を整理します。