
GLM-5.2 - GPT-5.5を一部上回るMITオープンウェイトのコーディングモデル(1Mコンテキスト)
オープンウェイトのコーディングモデルが、ついに一部のベンチで GPT-5.5 を上回りました。Zhipu AI(国際ブランド Z.ai)が公開した GLM-5.2 は、MIT ライセンスでウェイトを配り、1M トークンのコンテキストを持つコーディング特化モデルです。話題先行になりやすいので、この記事では Z.ai 公式・Hugging Face を一次ソースに、誇張せず注意点込みで整理します。
GLM-5.2 とは
- 公開: 2026年6月13日にウェイト公開、6月16日に API 価格と公式スコアカードを公開
- 提供: Zhipu AI(清華大学発、北京)/ Z.ai
- ライセンス: ウェイトは MIT(地域制限なし)、コードリポジトリは Apache-2.0。どちらも商用可
- 配布: Hugging Face(
zai-org/GLM-5.2)、GitHub、Z.ai API / GLM Coding Plan
コンセプトは「Vibe Coding から Agentic Engineering へ」。コーディングとエージェント実行に振った設計です。
スペック
| 項目 | 値 |
|---|---|
| 総パラメータ | 744B(一部ソースは753Bと表記)の MoE |
| アクティブ | 約 40B(1トークンあたり) |
| アーキテクチャ | MoE + Dynamic Sparse Attention + IndexShare |
| コンテキスト | 1M トークン(5.1 の約200Kから5倍) |
| API 価格 | 入力 $1.40 / 出力 $4.40(per 1M tokens) |
総パラメータは大きい(744B級)一方、推論時はアクティブ約40Bなので、動作コストは40B級に近づけつつ大規模モデルの知識を引き出す、という MoE の典型です。IndexShare(数層ごとに sparse attention のインデックスを共有)で、1M コンテキスト時の per-token 計算量を抑えています。
NOTE
総パラメータは公式 GitHub / Artificial Analysis が 744B、HF ブログ等が753Bと、ソース間で表記揺れがあります。本記事は744Bを基本に「約740–750B規模」と捉えてください。
ベンチマーク(注意して読む)
WARNING
ローンチ時(6/13)はベンチ数値が一切公開されませんでした。 「1位」「GPT-5.5超え」という評価は6/16以降の公式スコアカードと独立評価に基づく後追いの話です。さらにベンチの選び方で印象が変わる点(後述)にも注意してください。
| ベンチ | GLM-5.2 | Claude Opus 4.8 | GPT-5.5 |
|---|---|---|---|
| SWE-bench Pro | 62.1 | 69.2 | 58.6 |
| Terminal-Bench 2.1 | 81.0 | 85.0 | — |
| FrontierSWE | 74.4% | 75.4% | 72.6% |
- SWE-bench Pro でオープンウェイトとして初めて GPT-5.5 を上回ったとされ、「最強オープンの中で首位級」という位置づけ
- ただし Claude Opus 4.8 には複数指標で僅差で及ばない
- 別指標(SWE-Marathon)では Opus 4.8 の約半分という報告もあり、ベンチ次第で評価は変わる
コスト: GPT-5.5比およそ1/6
API の出力単価 $4.40 / 1M は、GPT-5.5 の出力 $30 / 1M に対しておよそ 1/6。これが「安い」と話題の根拠です。
WARNING
「1/6」は主に出力トークン単価の比です。GLM-5.2 はトークン消費量が多め(同クラス開放モデルで効率は低い側)との指摘があり、タスク全体のコストでは差が縮む可能性があります。ローカル実行ならホスティング費用も別途かかります。コストは「単価」ではなく「タスク単位」で見積もるのが安全です。
使い方
API(Z.ai)か、ウェイトを落としてローカル/自前サーバーで動かせます。
vllm serve "zai-org/GLM-5.2"
python3 -m sglang.launch_server --model-path "zai-org/GLM-5.2"NOTE
フル精度は約1.51TBで一般的なローカル環境には非現実的です。量子化版(GGUF / MXFP4 等)が出ており、2bit GGUF で約238GBまで圧縮、256GB統合メモリの Mac などでの実行報告があります。ランタイム選びはローカルLLMランタイム比較も参照。
位置づけ
- 1M コンテキスト + エージェント向け RL + MIT の組み合わせが差別化点
- MiniMax M3はより軽量・ローカル向き、GLM-5.2 はコーディングベンチ上位、と棲み分け
- 「拡散方式」で速度に振ったDiffusionGemmaとは方向性が異なり、GLM-5.2 は品質・長コンテキスト・エージェント寄り
まとめ
- GLM-5.2 は Z.ai のMIT オープンウェイト・コーディングモデル(2026-06-13、744B級MoE/アクティブ約40B、1Mコンテキスト)
- SWE-bench Pro 62.1 でオープンとして初めて GPT-5.5 超えとされるが、Opus 4.8 には僅差で及ばず、ベンチ次第で印象は変わる
- API 出力単価は GPT-5.5 比およそ1/6。ただしトークン消費が多めでタスク単位では差が縮みうる
- フルは約1.51TBで、ローカルは量子化前提
- ローンチ時はベンチ非公開だった点も含め、数字は出典と前提を確かめて読む
「オープンウェイトでもフロンティアに肉薄」という流れを象徴する一手です。過度な万能視は禁物ですが、長コンテキストのコーディング/エージェント用途で、手元に置ける選択肢が増えた意義は大きいといえます。


