NVIDIA GTC 2026 技術解説：Vera Rubin・Feynmanの全貌

作成日：2026年3月22日

2026年3月16〜19日、NVIDIAのGTC 2026がサンノゼで開催された。Jensen Huang基調講演の技術的核心は「GPUとLPUの役割分担によるアーキテクチャ再定義」と「2028年Feynmanまでの3年ロードマップ公開」だ。本記事では技術者・エンジニア視点でアーキテクチャの本質を解説する。

1. Vera Rubin GPUの仕様と設計思想
1. なぜFP4が重要か
2. GPUとLPUの役割分担：Groq 3 LPUの統合
1. GPU vs LPUの使い分け
3. Feynmanアーキテクチャ（2028年）：3Dスタッキング時代へ
1. 3Dダイスタッキングとは何か
4. ソフトウェアスタック：NemoClaw・Cosmos 3
1. NemoClaw：エージェントAIの実行基盤
2. Cosmos 3：物理AIの世界基盤モデル
5. 全体ロードマップ
まとめ
1. 参考資料

1. Vera Rubin GPUの仕様と設計思想

項目	仕様
トランジスタ数	336億個
HBMメモリ	HBM4 288GB/GPU
FP4推論性能	50 PFLOPs/GPU
推論スループット（ワット当たり）	Blackwell比 10倍
トークンあたりコスト	Blackwell比 1/10

Vera Rubinの設計思想は「学習（Training）よりも推論（Inference）の最適化」にシフトしている。Blackwell世代がトレーニング性能で業界を塗り替えたのに対し、Vera Rubinは推論ワット効率を10倍に引き上げることで、エージェントAI時代の「大量の小さな推論リクエスト」に最適化されている。

なぜFP4が重要か

FP4（4ビット浮動小数点）はFP8よりもさらに低精度だが、推論においては十分な精度を保てることが実証されてきた。ビット幅が半分になれば理論上はメモリ帯域・演算量が2倍改善する。HBM4の広帯域と組み合わせることで、メモリウォール問題を構造的に解決するアプローチだ。

2. GPUとLPUの役割分担：Groq 3 LPUの統合

最大の技術的ニュースの一つが、Groq 3 LPU（Language Processing Unit）のVera Rubinプラットフォームへの統合だ。NVIDIAは2024年12月にGroqを200億ドルで買収しており、今回その技術がプラットフォームに組み込まれた。

GPU vs LPUの使い分け

特性	GPU（Rubin）	LPU（Groq 3）
得意な処理	並列行列演算・学習	シーケンシャルなトークン生成
アーキテクチャ	大量の並列コア	決定論的なデータフロー
推論スループット	高い並列性	最大1,500トークン/秒（エージェント向け）
電力効率	汎用的	推論特化で高効率

LPUの設計思想は「コンパイル時にすべての実行パスを決定し、実行時にキャッシュミスをゼロにする」こと。GPUがSRAMとDRAM間のデータ転送でボトルネックを生じやすいのに対し、LPUは静的なデータフローで予測可能な高速推論を実現する。エージェントが1タスクに20〜30回の推論を行う時代には、この特性が際立つ。

3. Feynmanアーキテクチャ（2028年）：3Dスタッキング時代へ

項目	内容
製造プロセス	TSMC A16（1.6nm）：NVIDIAの1nm級初号機
構造的革新	3Dダイ・スタッキング（NVIDIAシリコン初採用）
メモリ	カスタムHBM4E/HBM5（独自仕様）
CPU	NVIDIA Rosa（ロザリンド・フランクリン命名）
LPU	LP40（Groqチームとの共同開発）
ネットワーク	Kyber-CPO（光スイッチング活用）

3Dダイスタッキングとは何か

従来のGPUは「2Dレイアウト」だ。演算コア、SRAMキャッシュ、制御回路が同一シリコン平面に配置される。3Dスタッキングでは複数のダイを縦方向に積み上げ、TSV（Through-Silicon Via）で接続する。

これにより：

SRAM容量の大幅増加： 演算ダイの上にSRAMダイを積むことで、オンチップキャッシュを数十GB規模に拡張できる
メモリ帯域の爆増： TSVによるダイ間接続はHBMよりもさらに短い配線長を実現
フットプリント削減： 同じダイサイズでより多くの機能を集積

AMDがRDNA/CDNA系でHBM3Eとの近接配置を進め、Intel Gaudi 3が独自の2.5D実装を採用するなか、NVIDIAはFeynmanで業界最先端の3D実装へ踏み込む。ムーアの法則が横方向では終わり、縦方向の競争に移行していることの象徴だ。

4. ソフトウェアスタック：NemoClaw・Cosmos 3

NemoClaw：エージェントAIの実行基盤

コンポーネント	役割
NemoClaw セキュアランタイム	ポリシーベースのセキュリティ・ネットワーク保護。自律エージェントの安全実行
AI-Q ブループリント	オープンソースのエージェント検索基盤。DeepResearch Bench最高精度・クエリコスト50%削減
Nemotron 3 Super（120B）	ハイブリッドMoEアーキテクチャ。フロンティア性能のオープンモデル
Nemotron 3 Nano（4B）	エッジ・ローカルエージェント向け軽量モデル

Cosmos 3：物理AIの世界基盤モデル

Cosmos 3は「ロボティクスのデータ問題をコンピューティング問題に変換する」ことを目的とした世界基盤モデルだ。実世界でのデータ収集コストが高いロボティクスAIにおいて、合成データを大量生成することでロングテール・シナリオをカバーする。物理AIデータファクトリーブループリントと組み合わせることで、限られた実データを多様な学習データに変換できる。

5. 全体ロードマップ

世代	時期	主な技術革新
Vera Rubin	2026年下期	HBM4・Groq LPU統合・FP4 50PFLOPs・推論10倍効率
Kyber（ラック）	2027年	144GPU垂直ラック・光スイッチ（CPO）
Feynman	2028年予定	TSMC A16・3Dダイスタッキング・カスタムHBM・LP40 LPU

まとめ

GTC 2026の技術的本質は3つだ。

GPU+LPUの役割分担： GPUが並列学習・大バッチ推論を担い、LPUがシーケンシャルなエージェント推論を担う。単一チップの限界を超えた「異種混合アーキテクチャ」への移行
3Dスタッキングによるムーアの法則の継続： 2Dの微細化限界を縦方向で突破。Feynmanで本格化する3D実装は、次の10年の計算効率改善の軸となる
ソフトウェアで差別化を固める： NemoClaw・Cosmos 3・GR00T N2で「NVIDIAハードウェアでしか動かない最適化されたソフトウェア」を積み上げ、ロックインを強化している