LLM20 件の記事

LLM の記事

Gemini 3.6 Flash 最新事情 - 3.5 Flash-Lite / Flash Cyber 同時発表と Gemini 4 予告

2026年7月24日約14分

Google が2026年7月21日に発表した Gemini 3.6 Flash / 3.5 Flash-Lite / 3.5 Flash Cyber の3モデルを一次ソースで整理します。今回 3.5 Pro は無し、Gemini 4 の事前学習開始を予告。約1Mコンテキスト、入力$1.50・出力$7.50、ナレッジカットオフ2026年3月、出力トークン約17%削減、reasoning effort と並列ツール、提供面までまとめます。

Gemini Google AI LLM Gemini 3.6 Flash

Kimi K3 とは - 2.8兆パラメータのオープンMoEを読み解く（アーキテクチャ・ベンチ・ウェイト公開）

2026年7月18日約14分

Moonshot AI が2026年7月16日に発表した Kimi K3 は、総パラメータ2.8兆・896エキスパート中16活性化のスパースMoEで、100万トークンの文脈長を持つオープンウェイト大規模LLMです。Kimi Delta Attention・Attention Residuals・Gated MLA というアーキテクチャ、API料金、Artificial Analysis や Arena のベンチ、7月27日までに予定されるウェイト公開まで、公式ブログを一次ソースに誇張せず整理します。

LLM AI オープンウェイト Moonshot AI MoE

Claude Sonnet 5 リリース - Opus 4.8 に迫る性能を低価格で、無料/Pro のデフォルトに

2026年7月12日約13分

2026年6月30日、AnthropicがClaude Sonnet 5をリリース。Opus 4.8に迫るエージェント性能を低価格で提供し、7月1日から無料/Proのデフォルトモデルに。モデルID・価格・1Mコンテキスト・新トークナイザー・移行時の注意点を一次情報で整理します。

Claude Anthropic AI LLM

OpenAI GPT-5.6 とは - Sol / Terra / Luna と音声モデル GPT-Live の位置づけ

2026年7月11日約11分

2026年7月、OpenAIがGPT-5.6ファミリー（Sol・Terra・Luna）を一般公開しました。政府要請による限定プレビューを経ての広域リリース、3階層の位置づけと価格、max reasoning effort・ultra modeという新しい推論設定、そして聞きながら話せる音声モデルGPT-Live（GPT-Live-1 / mini）まで、一次・準一次ソースで確認できた範囲を整理します。

OpenAI GPT-5.6 LLM AIエージェント音声AI

Vercel eve 徹底解説 - ファイルシステム中心の新しいAIエージェントフレームワーク

2026年7月10日約12分

2026年6月17日にVercelが公開したオープンソースのAIエージェントフレームワーク eve を整理します。ツールは1つのTypeScriptファイル、スキルは1つのMarkdownファイルとして表現するファイルシステム中心の設計、会話を耐久ワークフローとしてチェックポイントし再開できる仕組み、AI SDKやWorkflowsとの関係、既存フレームワークとの違い、ベータである点の注意まで解説します。

Vercel AIエージェント TypeScript フレームワーク LLM

Grok 4.5 リリース - SpaceXAI初のフラッグシップは80TPSとトークン効率で勝負する

2026年7月9日約9分

2026年7月8日、SpaceXAI（旧xAI）がGrok 4.5をリリースしました。コーディング・エージェントタスク・ナレッジワーク向けの同社最強モデルで、数万台のNVIDIA GB300によるRL学習、80TPSの高速サービング、SWE Bench Proで平均15,954出力トークン（Opus 4.8 maxの約4.2分の1）というトークン効率が特徴。DeepSWE/SWE Marathon/Terminal Bench 2.1のベンチマーク結果をClaude Fable 5・GPT 5.5・Opus 4.8と比較し、$2/$6の価格、Grok Build・Cursor・APIでの提供状況、EU未提供の注意点、xAIがSpaceXAIになった経緯まで一次ソースで整理します。

Grok AI LLM SpaceXAI xAI ベンチマーク

Claude の advisor tool 入門 - 速いexecutorモデルに賢いadvisorモデルの助言を挟むツール使用パターン

2026年7月8日約16分

Claude API のベータ機能「advisor tool」を一次ソース（公式ドキュメント）で整理します。速く安い executor モデルが、生成の途中で賢い advisor モデルに戦略的な助言を求める仕組み、beta ヘッダ advisor-tool-2026-03-01 とツール定義（type: advisor_20260301）、Sonnet + Opus / Haiku + Opus といった対応モデルの組み合わせ、server_tool_use から advisor_tool_result への流れ、usage.iterations による課金、max_tokens・caching・max_uses でのコスト制御、Fable 5 / Mythos 5 の redacted 結果、そして使いどころと落とし穴まで、コード例つきで解説します。

Claude Anthropic API AI ツール使用 LLM

Gemini 3.5 Flash - 高速・低価格でコーディングとエージェントを強化（Pro はプレビュー）

2026年6月24日約7分

Google が2026年5月19日の I/O で一般提供を開始した Gemini 3.5 Flash を、公式情報を一次ソースに整理します。1Mトークンのコンテキスト、4段階の thinking、入力 $1.50 / 出力 $9.00 という価格、Terminal-Bench 2.1 や MCP Atlas などコーディング・エージェント系での向上、そして「3.1 Flash の3倍の価格」という注意点まで。あわせて、まだ GA していない Gemini 3.5 Pro（2Mコンテキスト・Deep Think、プレビュー段階）の現状も正確に区別して解説します。

AI Gemini Google LLM コーディング

GLM-5.2 - GPT-5.5を一部上回るMITオープンウェイトのコーディングモデル（1Mコンテキスト）

2026年6月22日約7分

Zhipu AI（Z.ai）が2026年6月13日に公開した GLM-5.2 は、ウェイトを MIT ライセンスで配布する 744B 規模（アクティブ約40B）の MoE コーディングモデルです。1M トークンのコンテキスト、SWE-bench Pro 62.1 でオープンウェイトとして初めて GPT-5.5 を上回ったとされる評価、GPT-5.5 比でおよそ1/6という API 価格、ローカル実行（量子化）まで、Z.ai 公式・Hugging Face を一次ソースに、誇張せず注意点込みで整理します。

AI LLM オープンソースコーディング GLM

Google DiffusionGemma - 拡散モデルでテキストを「並列生成」する実験的オープンモデル

2026年6月21日約8分

Google DeepMind が2026年6月10日に公開した DiffusionGemma は、テキストを1トークンずつ左から右へ生成する従来の自己回帰（autoregressive）方式ではなく、ノイズから複数トークンを並列にデノイズして生成する「拡散（diffusion）」方式のオープンウェイトモデルです。仕組み（Uniform State Diffusion・双方向アテンション・256トークンの並列デノイズ）、H100で1,000トークン/秒超という速度、Gemma 4 比での品質トレードオフ、実験的という位置づけまで、Google 公式情報を一次ソースに整理します。

AI LLM Gemma Google オープンソース

Claude Fable 5 とは何か - Opus を超える「Mythos クラス」を安全に公開する仕組み

2026年6月10日約22分

2026年6月9日に Anthropic が公開した Claude Fable 5 と Claude Mythos 5 を整理します。Opus の上に位置する新しい能力ティア「Mythos クラス」、Fable と Mythos の違い、Opus 4.8 へフォールバックするセーフガードの仕組み、価格と提供状況まで公式発表を一次ソースに解説。ローンチ3日後の6月12日に米政府の輸出規制指令で全アクセスが停止された経緯に加え、6月30日の規制解除・7月1日の全世界再提供（復活）、停止原因となったジェイルブレイク報告と改良された安全分類器、そして7月20日から適用されるプラン別の提供体系まで、最新情報に更新しました。

Claude Anthropic AI LLM AIエージェント

MiniMax M3 - オープンウェイトで100万トークン＋PC操作までこなすコーディングモデル

2026年6月4日約5分

2026年6月1日に公開された MiniMax M3 は、オープンウェイトで100万トークンの文脈長、MiniMax Sparse Attention（MSA）アーキテクチャ、ネイティブなマルチモーダル・PC操作を備えたコーディングモデルです。SWE-bench Pro のスコアやクローズドモデルとの距離、注意点を整理します。

LLM MiniMax オープンウェイト AIコーディング AI

Claude Code のトークンを理解する - 日本語と文字数の関係、課金の仕組み、利用料を抑えるコツ

2026年5月29日約10分

Claude Code の使用量の基準である「トークン」を、英語・日本語・コードでの文字数との関係、課金の仕組み、公式のトークンカウントAPI、そして利用料を抑える具体策まで整理します。

Claude Code Anthropic トークン LLM コスト最適化 AI

Claude Opus 4.8 リリースまとめ — Dynamic Workflows と effort control、4.7 からの強化点と価格

2026年5月29日約9分

2026年5月28日、Anthropicが「Claude Opus 4.8」をリリース。数百のサブエージェントを編成する Dynamic Workflows、effort control、自己検証の強化、ベンチマークと価格、fast mode の変更点を、Opus 4.7 からの差分として整理します。

Claude Anthropic LLM AI Opus 4.8 AIエージェント Claude Code

AutoTTS 解説 - 人間は「環境」を設計し、LLM が「戦略」を発見するテスト時スケーリングの新パラダイム

2026年5月26日約19分

arXiv:2605.08083v2「LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling」で提案された AutoTTS を解説します。Test-Time Scaling (TTS) 戦略を人手で設計するのではなく、人間は「環境」を作り、LLM エージェントが戦略コード（branch / continue / probe / prune / stop の方針）を自動発見する枠組み。オフラインリプレイ環境、β パラメタリゼーション、実行トレース・フィードバックという 3 つの設計判断を中心に整理します。

LLM AI 機械学習論文解説 AutoTTS Test-Time Scaling

Claude Prompt Caching と Pre-warming 徹底解説 - 5分／1時間キャッシュと max_tokens=0 ウォームアップで TTFT を短縮する

2026年5月15日約22分

Anthropic Claude API のプロンプトキャッシング（Automatic / Explicit / 1時間TTL / Pre-warming）を、料金構造・キャッシュ無効化・cache_control の置き場所・max_tokens=0 によるウォームアップ運用まで実装目線で整理します。

Claude Anthropic LLM API プロンプトキャッシングパフォーマンス

Claude Opus 4.7 リリースまとめ — Anthropic最強モデルの強化点と価格、提供プラットフォーム

2026年4月27日約6分

2026年4月17日、Anthropicが「Claude Opus 4.7」をリリース。ソフトウェアエンジニアリング能力の大幅向上、自己検証機能、最大2,576ピクセルの画像処理対応などの強化点と、API/Bedrock/Vertex/Foundryでの提供状況、価格を整理します。

Claude Anthropic LLM AI Opus 4.7 AIエージェント

Google Gemma 4 リリースまとめ — 31B Dense / 26B MoE / E4B / E2B のオープンソース4モデル徹底解説

2026年4月27日約7分

2026年4月2日、Googleがオープンソースモデル群「Gemma 4」を発表。31B Denseフラッグシップ、26B MoE、エッジ向けのE4B/E2Bという4モデル構成、AIME 2026で89.2％、LiveCodeBench v6で80.0％という性能、思考モード/関数呼び出し/140言語対応などの特徴を整理します。

Gemma Google LLM AI オープンソース MoE エッジAI

NII「LLM-jp-4」公開まとめ — 12兆トークンで学習した国産オープンソースLLM

2026年4月27日約6分

2026年4月3日、国立情報学研究所（NII）が国産大規模言語モデル「LLM-jp-4」をオープンソースで公開。約12兆トークンの高品質コーパスで学習した8B / 32B-A3Bの2モデル構成、最大65,000トークンの入出力対応、一部ベンチマークでGPT-4oやQwen3-8Bを上回る性能などをまとめます。

LLM-jp NII 国産LLM AI オープンソース日本語 LLM

LangChain.jsとは？ AIエージェント開発の定番フレームワークを活用例とコードで解説

2026年2月19日約19分

LangChain.jsは、LLMを活用したAIエージェントやアプリケーションを構築するためのTypeScript/JavaScriptフレームワークです。基本概念から実践的なコードサンプルまで、活用例とともに解説します。

LangChain TypeScript JavaScript AI LLM エージェント