作成日:2026年3月22日
2026年3月16〜19日、NVIDIAのGTC 2026がサンノゼで開催された。Jensen Huang基調講演の技術的核心は「GPUとLPUの役割分担によるアーキテクチャ再定義」と「2028年Feynmanまでの3年ロードマップ公開」だ。本記事では技術者・エンジニア視点でアーキテクチャの本質を解説する。
1. Vera Rubin GPUの仕様と設計思想
| 項目 | 仕様 |
|---|---|
| トランジスタ数 | 336億個 |
| HBMメモリ | HBM4 288GB/GPU |
| FP4推論性能 | 50 PFLOPs/GPU |
| 推論スループット(ワット当たり) | Blackwell比 10倍 |
| トークンあたりコスト | Blackwell比 1/10 |
Vera Rubinの設計思想は「学習(Training)よりも推論(Inference)の最適化」にシフトしている。Blackwell世代がトレーニング性能で業界を塗り替えたのに対し、Vera Rubinは推論ワット効率を10倍に引き上げることで、エージェントAI時代の「大量の小さな推論リクエスト」に最適化されている。
なぜFP4が重要か
FP4(4ビット浮動小数点)はFP8よりもさらに低精度だが、推論においては十分な精度を保てることが実証されてきた。ビット幅が半分になれば理論上はメモリ帯域・演算量が2倍改善する。HBM4の広帯域と組み合わせることで、メモリウォール問題を構造的に解決するアプローチだ。
2. GPUとLPUの役割分担:Groq 3 LPUの統合
最大の技術的ニュースの一つが、Groq 3 LPU(Language Processing Unit)のVera Rubinプラットフォームへの統合だ。NVIDIAは2024年12月にGroqを200億ドルで買収しており、今回その技術がプラットフォームに組み込まれた。
GPU vs LPUの使い分け
| 特性 | GPU(Rubin) | LPU(Groq 3) |
|---|---|---|
| 得意な処理 | 並列行列演算・学習 | シーケンシャルなトークン生成 |
| アーキテクチャ | 大量の並列コア | 決定論的なデータフロー |
| 推論スループット | 高い並列性 | 最大1,500トークン/秒(エージェント向け) |
| 電力効率 | 汎用的 | 推論特化で高効率 |
LPUの設計思想は「コンパイル時にすべての実行パスを決定し、実行時にキャッシュミスをゼロにする」こと。GPUがSRAMとDRAM間のデータ転送でボトルネックを生じやすいのに対し、LPUは静的なデータフローで予測可能な高速推論を実現する。エージェントが1タスクに20〜30回の推論を行う時代には、この特性が際立つ。
3. Feynmanアーキテクチャ(2028年):3Dスタッキング時代へ
| 項目 | 内容 |
|---|---|
| 製造プロセス | TSMC A16(1.6nm):NVIDIAの1nm級初号機 |
| 構造的革新 | 3Dダイ・スタッキング(NVIDIAシリコン初採用) |
| メモリ | カスタムHBM4E/HBM5(独自仕様) |
| CPU | NVIDIA Rosa(ロザリンド・フランクリン命名) |
| LPU | LP40(Groqチームとの共同開発) |
| ネットワーク | Kyber-CPO(光スイッチング活用) |
3Dダイスタッキングとは何か
従来のGPUは「2Dレイアウト」だ。演算コア、SRAMキャッシュ、制御回路が同一シリコン平面に配置される。3Dスタッキングでは複数のダイを縦方向に積み上げ、TSV(Through-Silicon Via)で接続する。
これにより:
- SRAM容量の大幅増加: 演算ダイの上にSRAMダイを積むことで、オンチップキャッシュを数十GB規模に拡張できる
- メモリ帯域の爆増: TSVによるダイ間接続はHBMよりもさらに短い配線長を実現
- フットプリント削減: 同じダイサイズでより多くの機能を集積
AMDがRDNA/CDNA系でHBM3Eとの近接配置を進め、Intel Gaudi 3が独自の2.5D実装を採用するなか、NVIDIAはFeynmanで業界最先端の3D実装へ踏み込む。ムーアの法則が横方向では終わり、縦方向の競争に移行していることの象徴だ。
4. ソフトウェアスタック:NemoClaw・Cosmos 3
NemoClaw:エージェントAIの実行基盤
| コンポーネント | 役割 |
|---|---|
| NemoClaw セキュアランタイム | ポリシーベースのセキュリティ・ネットワーク保護。自律エージェントの安全実行 |
| AI-Q ブループリント | オープンソースのエージェント検索基盤。DeepResearch Bench最高精度・クエリコスト50%削減 |
| Nemotron 3 Super(120B) | ハイブリッドMoEアーキテクチャ。フロンティア性能のオープンモデル |
| Nemotron 3 Nano(4B) | エッジ・ローカルエージェント向け軽量モデル |
Cosmos 3:物理AIの世界基盤モデル
Cosmos 3は「ロボティクスのデータ問題をコンピューティング問題に変換する」ことを目的とした世界基盤モデルだ。実世界でのデータ収集コストが高いロボティクスAIにおいて、合成データを大量生成することでロングテール・シナリオをカバーする。物理AIデータファクトリーブループリントと組み合わせることで、限られた実データを多様な学習データに変換できる。
5. 全体ロードマップ
| 世代 | 時期 | 主な技術革新 |
|---|---|---|
| Vera Rubin | 2026年下期 | HBM4・Groq LPU統合・FP4 50PFLOPs・推論10倍効率 |
| Kyber(ラック) | 2027年 | 144GPU垂直ラック・光スイッチ(CPO) |
| Feynman | 2028年予定 | TSMC A16・3Dダイスタッキング・カスタムHBM・LP40 LPU |
まとめ
GTC 2026の技術的本質は3つだ。
- GPU+LPUの役割分担: GPUが並列学習・大バッチ推論を担い、LPUがシーケンシャルなエージェント推論を担う。単一チップの限界を超えた「異種混合アーキテクチャ」への移行
- 3Dスタッキングによるムーアの法則の継続: 2Dの微細化限界を縦方向で突破。Feynmanで本格化する3D実装は、次の10年の計算効率改善の軸となる
- ソフトウェアで差別化を固める: NemoClaw・Cosmos 3・GR00T N2で「NVIDIAハードウェアでしか動かない最適化されたソフトウェア」を積み上げ、ロックインを強化している
参考資料
※本記事は情報提供を目的としており、内容の正確性・完全性を保証するものではありません。


コメント