
Claude Opus 4.8 リリースまとめ — Dynamic Workflows と effort control、4.7 からの強化点と価格
2026年5月28日、Anthropicは新しいフラッグシップLLM「Claude Opus 4.8」をリリースしました。注目すべきは、前世代の Claude Opus 4.7 からわずか41日でのアップデートだという点です。これまでのAnthropicとしては異例の速いサイクルで、OpenAIのCodexやGoogleのGemini 3.5 Flashといった競合の動きと無関係ではないでしょう。
この記事では、Opus 4.8 で何が変わったのかを、ベンチマーク・価格・新機能の3軸で、Opus 4.7 からの差分として整理します。目玉は Claude Code に入った Dynamic Workflows(リサーチプレビュー)です。
リリース概要
| 項目 | 内容 |
|---|---|
| リリース日 | 2026年5月28日 |
| 提供元 | Anthropic |
| モデル名 | claude-opus-4-8 |
| 前世代からの間隔 | Opus 4.7(4月17日)から41日 |
| 価格(入力) | $5 / 100万トークン(4.7から据え置き) |
| 価格(出力) | $25 / 100万トークン(4.7から据え置き) |
| fast mode 価格 | $10 / $50 per 100万トークン(従来の fast より約3倍安い) |
| 主な新機能 | Dynamic Workflows(研究プレビュー)、effort control |
価格は標準モデルで入力 $5 / 出力 $25 と、4.7 から据え置きです。性能が上がっても価格が上がらないのは、利用者目線ではありがたいポイントです。
ベンチマーク: 4.7 から 4.8 へ
Anthropic公式の発表によると、主要ベンチマークは以下のように改善しています。数値は公式の比較に基づくもので、詳細は System Card を確認してください。
| ベンチマーク | Opus 4.7 | Opus 4.8 |
|---|---|---|
| SWE-bench Verified(コーディング) | 87.6% | 88.6% |
| SWE-bench Pro(エージェンティックコーディング) | 64.3% | 69.2% |
| OSWorld(コンピュータ操作) | 約82.8% | 83.4% |
| HLE with tools(ツール併用の知的作業) | 54.7% | 57.9% |
SWE-bench Verified は既に高水準だったため伸びは +1.0pt にとどまりますが、より難度の高い SWE-bench Pro では +4.9pt、ツールを併用する知的作業(HLE with tools)でも +3.2pt と、エージェント用途で効く部分がしっかり伸びています。長文脈検索や数学推論(USAMO 系)でも改善が報告されています。
4.8 で何が変わったのか
自己検証と「正直さ」の強化
Anthropic が今回特に強調しているのが、モデルの正直さです。公式によると、Opus 4.8 は自分が書いたコードの欠陥を指摘せずに見逃す確率が、Opus 4.7 と比べて約4分の1になりました。誤った結果を無批判にそのまま報告してしまうケースは 0% だったとしています。
Opus 4.7 の自己検証機能 をさらに推し進めた形で、4.8 は「途中の不確実性を自分から申告する」傾向が強くなっています。ヘッジファンドの Bridgewater Associates も、分析の入力・出力に潜む問題を Opus 4.8 が自分から指摘してくる点を評価しているとコメントしています。長時間にわたって自律的にタスクを進める用途では、この「黙って間違えない」性質が効いてきます。
より長く、自律的に走り続ける
Opus 4.8 は、前世代よりも長時間ひとりで作業を継続できるようになったとされています。後述する Dynamic Workflows と組み合わせることで、数日にまたがる大規模タスクを、途中で中断・再開しながら進められる設計になっています。
目玉機能: Dynamic Workflows(研究プレビュー)
今回のリリースで最も大きいのが、Claude Code に入った Dynamic Workflows です。研究プレビューとして、Enterprise / Team / Max プラン向けに提供されます。
従来のサブエージェントは、あらかじめ用意した役割にタスクを振る使い方が中心でした。Dynamic Workflows では、Claude 自身がオーケストレーション用のスクリプトを動的に書き、数十〜数百のサブエージェントを1つのセッション内で並列に立ち上げるようになります。
Anthropic は、これによって次のような規模の作業が現実的になるとしています。
- コードベース全体の監査(多数のファイルを並列に読み込み、所見を集約)
- 数十万行規模のコードベース移行を、着手からマージまで一気通貫で
- 数日にまたがる、中断・再開可能なロングホライズンなタスク
ポイントは「決定論的な制御フロー(ループ・分岐・ファンアウト)はスクリプトに任せ、各サブエージェントに個別の判断をさせる」という分業です。1つのコンテキストには収まらない規模の仕事を、複数のエージェントに分割して並列処理し、結果を統合する。Claude Code を日常的に使っている人ほど、この方向性の意味は腑に落ちるはずです。
[!NOTE] Dynamic Workflows は研究プレビューです。対象プランや挙動は今後変わる可能性があります。大規模タスクに投入する場合は、消費トークンが大きくなりやすい点に注意してください。
effort control: 労力を選べるようになった
claude.ai と Cowork に、モデルセレクタの隣へ effort control(労力の調整)が追加されました。1つのリクエストにどれだけ「労力」をかけるかを選べる仕組みで、低めに設定すれば速く・安く、高めに設定すれば時間とトークンをかけて精度を取りにいく、というトレードオフを明示的に操作できます。
既定は high で、トークンと品質のバランスが取られています。さらに上の効果を狙う場合は xhigh や max といったレベルも選べます。「軽い質問は低 effort、難しい設計判断は高 effort」と、用途に応じて使い分けるのが基本的な戦略になります。
fast mode は 2.5倍速・約3倍安く
応答速度を優先する fast mode も更新されました。Anthropic によると、Opus 4.8 の fast mode は約2.5倍の速度で動作し、しかも従来モデルの fast mode と比べて約3倍安くなっています。価格は入力 $10 / 出力 $50 per 100万トークンです。
対話的に Claude Code を回していて「速度が欲しい」場面では fast mode、じっくり考えてほしい場面では effort を上げる、という使い分けができます。
API 利用時の注意点
API 経由で使う場合のモデルIDは claude-opus-4-8 です。基本的な呼び出しは 4.7 から変わりません。
import anthropic
client = anthropic.Anthropic()
message = client.messages.create(
model="claude-opus-4-8",
max_tokens=1024,
messages=[
{"role": "user", "content": "このリポジトリのテスト失敗の原因を調べて"}
],
)
print(message.content)あわせて、Messages API では system のエントリを messages 配列の中に含められるようになりました。システム指示を会話の途中に差し込みたいケースで柔軟性が増しています。
なお、API でコストを抑えるなら Prompt Caching と Pre-warming の併用は引き続き有効です。Opus 4.8 でも考え方は同じです。
どのような用途に向いているか
- 大規模なコードベース移行・監査: Dynamic Workflows で並列化し、人手では現実的でない規模を一気に処理する
- 長時間の自律エージェント: 「黙って間違えない」性質が効く、ロングホライズンなタスク
- コスト・速度の最適化: effort control と fast mode で、リクエストごとに精度と速度を出し分ける
逆に、ごく短い単発の質問であれば、Opus 4.8 をフル稼働させる必要はありません。effort を下げる、あるいは軽量モデルを選ぶほうが合理的です。
まとめ
- 2026年5月28日、Opus 4.7 からわずか41日で Claude Opus 4.8 がリリース
- ベンチマークはエージェンティックコーディング(SWE-bench Pro 64.3% → 69.2%)など実務に効く部分が伸びた
- 自分が書いたコードの欠陥を見逃す確率が約4分の1に。長時間タスクでの信頼性が向上
- 目玉は Claude Code の Dynamic Workflows。数十〜数百のサブエージェントを動的に編成し、コードベース規模の作業を一気通貫で回す
- effort control で労力を、fast mode(2.5倍速・約3倍安)で速度を、それぞれ明示的に制御できる
- 標準価格は入力 $5 / 出力 $25 で 4.7 から据え置き
41日という短いサイクルでの更新は、モデル単体の性能競争から「エージェントをどう束ねて大規模タスクを回すか」へと、競争の主戦場が移りつつあることを示しているように見えます。