
フィジカルAI とは何か - 世界モデル・VLA・ヒューマノイドで動く次世代AIの2026年現在地
ここ1年ほどで、ニュースに「フィジカルAI(Physical AI)」という言葉が頻繁に登場するようになりました。NVIDIA の Jensen Huang CEO は CES 2025 のキーノートで「次の波はフィジカルAIだ」と宣言し、2026年3月の GTC 2026 では Cosmos 3 と GR00T N2 を発表。Figure AI は Helix 02、Tesla は Optimus Gen 3 と、ヒューマノイドロボットの新世代が立て続けに登場しています。
ChatGPT 的な「画面の中で文章を返す AI」と何が違うのか、そして 2026年5月時点で どこまで現実に動いているのか を、技術スタックと主要プレイヤーの両面から整理します。
フィジカルAI とは
フィジカルAI(Physical AI、物理AI)とは、ひと言で言うと 「現実世界を理解し、物理的な身体を通じて行動する AI」 のことです。
NVIDIA や業界レポートでは、AI の進化を次のように 4段階で説明することが多くなっています。
| 世代 | 名称 | 代表例 | 主な出力 |
|---|---|---|---|
| 第1世代 | Perception AI | 画像認識、音声認識 | クラスラベル、テキスト |
| 第2世代 | Generative AI | ChatGPT、Stable Diffusion | テキスト、画像、音声 |
| 第3世代 | Agentic AI | Claude Code、Cursor Composer | ツール呼び出し、コード変更 |
| 第4世代 | Physical AI | ヒューマノイド、自動運転、産業ロボット | 関節トルク、車両制御、ロボット動作 |
ここでのポイントは、出力が テキストや画像ではなく「現実世界の運動」 になることです。スクリーンの中で完結する従来の AI と違い、フィジカルAI は 重力・摩擦・慣性・他者との衝突 といった物理法則を扱わないと役に立ちません。
Physical AI とは、AI が物理世界を知覚・推論・行動できるシステムのこと。 ロボット、自動運転車、スマート空間、産業オートメーションなど、AI が「動くもの」に組み込まれた領域全般を指す。
なぜ2025〜2026年に立ち上がったのか
フィジカルAI 自体は新しい概念ではなく、強化学習や模倣学習、Boston Dynamics の Atlas など、過去にも取り組みは存在していました。それが 2025〜2026年にかけて一気に「ビジネスとして成立する」フェーズに入った背景には、4つの技術が同時に成熟したことがあります。
- 大規模 VLM(Vision-Language Model)の汎化能力
GPT-4V や Gemini、Claude など、画像と言語を扱える基盤モデルが「だいたいの状況を理解できる」レベルに達した。これがロボットの「目と脳」の前提になった。 - 世界モデル(World Foundation Models)
現実の物理を学習した動画生成・予測モデルが登場し、シミュレーション内で大量のデータを合成できるようになった(NVIDIA Cosmos など)。 - ロボット学習のスケーラブル基盤
Isaac Lab や MuJoCo などの GPU 並列シミュレーション、Sim-to-Real 転移、人間動作データセットが揃い、訓練コストが現実的になった。 - ハードウェアコストの低下
中国メーカーを中心に、ヒューマノイドの主要部品(アクチュエータ、減速機、センサ)が大幅に低価格化。Unitree G1 が約 $16,000 から購入可能な水準に。
これら4つが揃った結果、「研究室のデモ」から「工場・家庭で実運用」のフェーズに進みつつあります。Figure 03 は BMW の工場で 1日10時間のシフトを稼働し、9万個以上の部品装着実績を残しており、Optimus Gen 3 は 2026年Q1 に1,000台以上を社内外に展開し始めています。
技術スタックの全体像
フィジカルAI のソフトウェアスタックを、抽象度の高い順に整理すると次のようになります。
+---------------------------------------------+
| アプリ層: 工場、家庭、医療、自動運転など |
+---------------------------------------------+
| ロボット制御層 (VLA, 制御ポリシ) | Helix, GR00T, π0/π0.5
+---------------------------------------------+
| 基盤モデル層 (VLM + 世界モデル) | Cosmos, Gemini Robotics
+---------------------------------------------+
| 学習・シミュレーション層 | Isaac Lab, Newton, MuJoCo
+---------------------------------------------+
| ハードウェア層 (アクチュエータ, センサ, GPU) | Jetson Thor, NVIDIA DRIVE
+---------------------------------------------+
1. 世界モデル(World Foundation Models)
世界モデルとは、「映像と行動から、次に何が起きるかを予測する」ための大規模モデルです。文章を予測する LLM と発想は同じですが、対象が 動画と物理現象 になります。
代表は NVIDIA の Cosmos ファミリーで、2026年5月時点では次の3系統が公開されています。
- Cosmos Predict 2.5 - 過去の映像から未来フレームを予測(物理予測)
- Cosmos Transfer 2.5 - 既存の映像を「別の照明・天候・テクスチャ」に変換し、合成データを大量生成
- Cosmos Reason 2 - 動画と言語から「次に取るべき行動」を推論する VLM
GTC 2026 で発表された Cosmos 3 は、これら3系統を統合したワールドシミュレータで、Boston Dynamics や Disney など多くのパートナーが採用しています。
2. VLA(Vision-Language-Action)モデル
ロボット制御の中心になるのが、VLA(Vision-Language-Action)モデル です。VLM を拡張し、出力に「行動」(関節角・グリッパー開閉など)を加えた基盤モデルで、2025年以降の研究のメインストリームになっています。
主要な VLA モデルを 2026年5月時点で並べると次の通りです。
| モデル | 開発元 | 特徴 |
|---|---|---|
| Helix / Helix 02 | Figure AI | 全身制御、System1/System2 の二段構成、組み込み GPU で動作。Helix 02 はキッチンで4分間の自律タスクを完遂 |
| GR00T N1.7 / N2 | NVIDIA | Cosmos-Reason2-2B を VLM バックボーンに採用、N2 は未知環境のタスク完遂率が約2倍に向上 |
| π0(パイ・ゼロ) | Physical Intelligence | フローマッチングで連続行動を生成、7種類のロボット・68タスクで学習 |
| π0.5 | Physical Intelligence | 学習に登場しない家庭でも 10〜15分の長時間タスクを実行できる汎化型 |
| Gemini Robotics | Google DeepMind | Gemini 2.x 系 VLM をベースにロボット用に拡張 |
System 1 / System 2 アーキテクチャ(Helix が代表例)では、
- System 2: 7〜9 Hz で動く「ゆっくり考える VLM」(シーン理解・タスク分解)
- System 1: 高頻度で動く「速い反射的ポリシ」(実際の関節制御)
の二段構成で動かすのが主流になりつつあります。これによって、汎用性と実時間性を両立しています。
3. シミュレーション・学習基盤
ロボットを実機だけで学習させると、データ収集に膨大な時間とコストがかかります。そこで「シミュレーション内で大量に動かして、現実に転移する」Sim-to-Real が前提になります。
NVIDIA スタックの場合、2026年版では次の構成が標準です。
- Isaac Sim 5 / Isaac Lab 3.0 - GPU 並列のロボティクスシミュレータ
- Newton - GPU アクセラレーテッドな新世代物理エンジン(Isaac Lab に統合済み)
- OSMO - エッジからクラウドまでをまたぐ訓練オーケストレーション基盤
- Cosmos Predict / Transfer - 学習データそのものを生成する世界モデル
Newton は摩擦・接触・布や柔らかい物体の扱いが大幅に強化されており、ヒューマノイドが「コップを掴む」「衣類を畳む」といったタスクを学ばせやすくなっています。
4. ハードウェア層(オンボード AI)
フィジカルAI は 電源とネットワークが不安定な場所でも動く ことを前提にする必要があるため、エッジ推論性能が重要です。NVIDIA は次のチップ群を「フィジカルAI 用」と位置付けています。
- Jetson Thor - ヒューマノイド・サービスロボット向けの高性能エッジ AI モジュール
- DRIVE Thor / DRIVE Hyperion - 自動運転車向けの統合プラットフォーム
これらが 車載・ロボット・産業機器 の中で、Cosmos や GR00T 由来のモデルを推論する、というのが 2026年の構図です。
主要プレイヤーマップ(2026年5月時点)
フィジカルAI 領域は急速に再編されているため、レイヤー別に主要プレイヤーをマップ化しておきます。
基盤モデル / 世界モデル
- NVIDIA - Cosmos、GR00T、Isaac Lab、Newton、Jetson Thor。スタック全体の事実上のリファレンス実装
- Google DeepMind - Gemini Robotics、RT-2 系
- Physical Intelligence - π0 / π0.5。汎化性能の高い VLA を矢継ぎ早に公開
- Skild AI、Covariant、Wayve - 産業・自動運転向けの基盤モデルベンダ
ヒューマノイドロボット本体
- Tesla - Optimus Gen 3
- Figure AI - Figure 03 + Helix 02、BMW などの実運用パートナー
- 1X Technologies(ノルウェー) - 家庭用 NEO
- Apptronik - Apollo(Mercedes-Benz と共同)
- Sanctuary AI(カナダ) - Phoenix
- Boston Dynamics - Atlas(電動版)
- Unitree、Fourier、Agibot、UBTECH、Xpeng(中国) - 量産・低価格化を牽引
産業ロボット・自動運転
- FANUC、YASKAWA、ABB、KUKA - 既存産業ロボットに VLA を組み込む流れ
- Caterpillar、Komatsu - 建機の自律化
- Waymo、Tesla FSD、Pony.ai、WeRide、Mobileye - 自動運転
NVIDIA が「OS / GPU / 基盤モデル」を提供し、その上で多くのロボットメーカーが走る、という Wintel 的な構図になりつつあります。
注目ヒューマノイドロボット ピックアップ
ヒューマノイドは特に動きが速いので、2026年5月時点での代表機を比較しておきます。
| 機種 | 開発元 | 身長 / 体重 | 自由度 | 特徴 | 想定価格 |
|---|---|---|---|---|---|
| Optimus Gen 3 | Tesla | 173cm / 57kg | 全身40+ DOF、手 22 DOF | FSD のニューラルネットを流用、2026年Q1に1,000台以上を展開予定 | $20,000〜25,000(量産時) |
| Figure 03 | Figure AI | 170cm / 57kg | 50 DOF、手 22 DOF | Helix 02 搭載、3グラムの力検出、BMW で実稼働 | 公表なし(B2B 主体) |
| NEO | 1X Technologies | 約168cm | 全身多自由度 | 家庭用に振った設計、布製の柔らかい外装 | 公表なし(家庭向け) |
| G1 | Unitree | 約132cm | 23 DOF | 圧倒的な低価格、研究・教育市場で急拡大 | $16,000〜(中国国内 約 $12,000〜) |
| Atlas(電動) | Boston Dynamics | 約150cm | 全身 28 DOF | 高ダイナミクス、Hyundai 工場で検証中 | 商用販売は限定的 |
| Apollo | Apptronik | 約173cm | 全身 30+ DOF | Mercedes-Benz 工場で物流タスク | 商用販売は限定的 |
工場・物流向けは Figure・Apptronik・Optimus、家庭向けは 1X NEO、研究・教育の最大手は Unitree、というポジション分けが定着しつつあります。
NVIDIA Cosmos / GR00T - フィジカルAI スタックの中心
「NVIDIA は GPU の会社」という認識から、「フィジカルAI のフルスタックベンダ」へとポジションが大きく変わっています。2026年5月時点で押さえておきたい主要プロダクトを整理します。
Cosmos
- Cosmos Predict 2.5 - 物理的にもっともらしい未来フレームを予測する世界モデル
- Cosmos Transfer 2.5 - 既存映像を別環境(夜・雨・別工場など)に変換し、ロバスト性を高める合成データを大量生成
- Cosmos Reason 2 - 動画 + 言語からタスク手順を推論する VLM、N1.7 以降の GR00T のバックボーンに採用
- Cosmos 3(2026 GTC 発表) - 上記を統合したワールドシミュレータ
GR00T
- GR00T N1(2025年3月公開) - ヒューマノイド向けオープン基盤モデルの初版
- GR00T N1.5 / N1.6 - VLM 強化、データ効率改善
- GR00T N1.7(Early Access) - Cosmos-Reason2-2B を新バックボーンに採用、言語追従性が向上
- GR00T N2(2026 GTC、プロダクション版) - 未知環境でのタスク完遂率が他社 VLA 比で約2倍、System1/System2 構成
Isaac Lab 3.0 + Newton
- Isaac Lab 3.0 - GR00T や Cosmos と連動した訓練・評価用フレームワーク
- Newton - 接触・摩擦・柔らかい物体の表現を強化した GPU 物理エンジン
NVIDIA はこれらを オープンに公開 している点が特徴で、GR00T のチェックポイントは GitHub の NVIDIA/Isaac-GR00T リポジトリから取得して各社のロボットに合わせてファインチューニングできます。
想定される用途と現実への波及
フィジカルAI が現実に効きそうな領域を、2026年時点で見えている順に並べると次のようになります。
- 工場・物流の人手不足対応
BMW × Figure、Mercedes-Benz × Apptronik、Hyundai × Boston Dynamics のように、自動車工場での実証が先行。重量物搬送、部品装着、ピッキングなど。 - 倉庫・配送現場の自律化
Amazon、京東、楽天など EC 大手が自社向けロボットへ多額の投資。 - 建設・農業・鉱業
Caterpillar、Komatsu の建機自律化、農業ロボット(雑草除去、収穫)が商用化フェーズ。 - 介護・家庭ロボット
1X NEO、Apptronik など。家庭は環境のばらつきが激しく、VLA の汎化能力次第。 - 医療・手術支援
Intuitive Surgical の da Vinci 系統に AI レイヤーが乗る方向。 - 自動運転
フィジカルAI の文脈では「車輪付きロボット」として再整理され、Cosmos / DRIVE Thor 上で世界モデル前提の学習へ。
残されている課題
派手なデモが続く一方で、フィジカルAI は 実用化の手前で詰まっている問題 も多数あります。
- Sim-to-Real ギャップ - シミュレーションで完璧でも、実機では摩擦・センサノイズ・遅延で挙動が崩れる
- データの偏り - 学習データが工場・研究室に偏り、家庭環境や非定型タスクが苦手
- 安全性・責任問題 - 人と物理的に衝突しうる以上、「誤動作したら誰が責任を負うか」が法的に未整備
- 電力と稼働時間 - フル稼働で 2〜5 時間が現実的な水準。バッテリ・冷却の制約が大きい
- コスト構造 - 量産前提で $20,000 を切る目安だが、保守・サポート込みの TCO はまだ未知数
- 倫理と労働 - 工場・物流の置き換えに対する社会的コンセンサス、雇用への影響
特に 安全性 は、ISO 10218 や ISO/TS 15066 など産業ロボットの規格が前提のため、ヒューマノイドや家庭用ロボットへの拡張には数年単位の整備が必要です。
これからの3年(2026〜2028)
最後に、現時点の各社ロードマップと業界レポートから、これからの3年をざっくり予想すると次のようになります。
- 2026年 - 工場ヒューマノイドの「数百〜数千台」展開が本格化。VLA は GR00T N2 と Helix 02 の世代が標準
- 2027年 - 家庭用ヒューマノイドの先行ユーザ向け出荷開始、Sim-to-Real 用の世界モデルが Cosmos 4 世代に
- 2028年 - 工場ヒューマノイドの累計出荷が「年間 10万台」級に。家庭用は早期採用層に普及
この通りに進むかは別として、「ロボットがニュースになる頻度」が、3年前のスマートスピーカーくらいの感覚で上がってくるのは間違いなさそうです。
まとめ
- フィジカルAI とは 物理世界で知覚・推論・行動する AI のこと。生成AI、エージェントAI に続く第4の波として位置付けられている
- 立ち上がりの背景には、VLM・世界モデル・シミュレーション基盤・ハードウェアコスト の4要素が同時に揃ったことがある
- 技術スタックは 世界モデル → VLA → シミュレーション → エッジハード の4階層で整理できる
- 2026年5月時点の主役は、NVIDIA Cosmos / GR00T、Figure Helix、Tesla Optimus、Physical Intelligence の π0 系、Unitree G1
- 工場・物流は実運用フェーズに入りつつあり、家庭用は数年内に先行ユーザ向け出荷が始まる見込み
- 一方で、Sim-to-Real、安全性、稼働時間、コスト など、量産化に向けた壁は依然として高い
「画面の中で文章を返す AI」と「現実世界で動く AI」では、開発の難易度もビジネスの組み方も大きく違います。次の3年で、フィジカルAI がどこまで日常に入り込んでくるか、引き続き追いかけていきます。
参考リンク
- NVIDIA Releases New Physical AI Models as Global Partners Unveil Next-Generation Robots(NVIDIA Newsroom)
- GR00T N1.6 - NVIDIA GEAR
- NVIDIA/Isaac-GR00T(GitHub)
- Helix: A Vision-Language-Action Model for Generalist Humanoid Control(Figure AI)
- Helix 02: Full-Body Autonomy(Figure AI)
- π0: A Vision-Language-Action Flow Model for General Robot Control(Physical Intelligence)
- π0.5: A VLA with Open-World Generalization(Physical Intelligence)