LLM10 件の記事

LLM の記事

Claude Fable 5 とは何か - Opus を超える「Mythos クラス」を安全に公開する仕組み

Claude Fable 5 とは何か - Opus を超える「Mythos クラス」を安全に公開する仕組み

2026年6月9日に Anthropic が公開した Claude Fable 5 と Claude Mythos 5 を整理します。Opus の上に位置する新しい能力ティア「Mythos クラス」とは何か、Fable と Mythos の違い、Opus 4.8 へフォールバックするセーフガードの仕組み、価格と提供状況、そして GitHub Copilot でのデータ保持の注意点まで、公式発表を一次ソースに開発者目線でまとめます。

MiniMax M3 - オープンウェイトで100万トークン+PC操作までこなすコーディングモデル

MiniMax M3 - オープンウェイトで100万トークン+PC操作までこなすコーディングモデル

2026年6月1日に公開された MiniMax M3 は、オープンウェイトで100万トークンの文脈長、MiniMax Sparse Attention(MSA)アーキテクチャ、ネイティブなマルチモーダル・PC操作を備えたコーディングモデルです。SWE-bench Pro のスコアやクローズドモデルとの距離、注意点を整理します。

AutoTTS 解説 - 人間は「環境」を設計し、LLM が「戦略」を発見するテスト時スケーリングの新パラダイム

AutoTTS 解説 - 人間は「環境」を設計し、LLM が「戦略」を発見するテスト時スケーリングの新パラダイム

arXiv:2605.08083v2「LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling」で提案された AutoTTS を解説します。Test-Time Scaling (TTS) 戦略を人手で設計するのではなく、人間は「環境」を作り、LLM エージェントが戦略コード(branch / continue / probe / prune / stop の方針)を自動発見する枠組み。オフラインリプレイ環境、β パラメタリゼーション、実行トレース・フィードバックという 3 つの設計判断を中心に整理します。

Claude Prompt Caching と Pre-warming 徹底解説 - 5分/1時間キャッシュと max_tokens=0 ウォームアップで TTFT を短縮する

Claude Prompt Caching と Pre-warming 徹底解説 - 5分/1時間キャッシュと max_tokens=0 ウォームアップで TTFT を短縮する

Anthropic Claude API のプロンプトキャッシング(Automatic / Explicit / 1時間TTL / Pre-warming)を、料金構造・キャッシュ無効化・cache_control の置き場所・max_tokens=0 によるウォームアップ運用まで実装目線で整理します。

Google Gemma 4 リリースまとめ — 31B Dense / 26B MoE / E4B / E2B のオープンソース4モデル徹底解説

Google Gemma 4 リリースまとめ — 31B Dense / 26B MoE / E4B / E2B のオープンソース4モデル徹底解説

2026年4月2日、Googleがオープンソースモデル群「Gemma 4」を発表。31B Denseフラッグシップ、26B MoE、エッジ向けのE4B/E2Bという4モデル構成、AIME 2026で89.2%、LiveCodeBench v6で80.0%という性能、思考モード/関数呼び出し/140言語対応などの特徴を整理します。

NII「LLM-jp-4」公開まとめ — 12兆トークンで学習した国産オープンソースLLM

NII「LLM-jp-4」公開まとめ — 12兆トークンで学習した国産オープンソースLLM

2026年4月3日、国立情報学研究所(NII)が国産大規模言語モデル「LLM-jp-4」をオープンソースで公開。約12兆トークンの高品質コーパスで学習した8B / 32B-A3Bの2モデル構成、最大65,000トークンの入出力対応、一部ベンチマークでGPT-4oやQwen3-8Bを上回る性能などをまとめます。