NVIDIA GTC 2026 技術解説:Vera Rubin・Feynmanの全貌

Close-up view of computer motherboard connectors. 未分類

作成日:2026年3月22日

2026年3月16〜19日、NVIDIAのGTC 2026がサンノゼで開催された。Jensen Huang基調講演の技術的核心は「GPUとLPUの役割分担によるアーキテクチャ再定義」と「2028年Feynmanまでの3年ロードマップ公開」だ。本記事では技術者・エンジニア視点でアーキテクチャの本質を解説する。


1. Vera Rubin GPUの仕様と設計思想

項目仕様
トランジスタ数336億個
HBMメモリHBM4 288GB/GPU
FP4推論性能50 PFLOPs/GPU
推論スループット(ワット当たり)Blackwell比 10倍
トークンあたりコストBlackwell比 1/10

Vera Rubinの設計思想は「学習(Training)よりも推論(Inference)の最適化」にシフトしている。Blackwell世代がトレーニング性能で業界を塗り替えたのに対し、Vera Rubinは推論ワット効率を10倍に引き上げることで、エージェントAI時代の「大量の小さな推論リクエスト」に最適化されている。

なぜFP4が重要か

FP4(4ビット浮動小数点)はFP8よりもさらに低精度だが、推論においては十分な精度を保てることが実証されてきた。ビット幅が半分になれば理論上はメモリ帯域・演算量が2倍改善する。HBM4の広帯域と組み合わせることで、メモリウォール問題を構造的に解決するアプローチだ。


2. GPUとLPUの役割分担:Groq 3 LPUの統合

最大の技術的ニュースの一つが、Groq 3 LPU(Language Processing Unit)のVera Rubinプラットフォームへの統合だ。NVIDIAは2024年12月にGroqを200億ドルで買収しており、今回その技術がプラットフォームに組み込まれた。

GPU vs LPUの使い分け

特性GPU(Rubin)LPU(Groq 3)
得意な処理並列行列演算・学習シーケンシャルなトークン生成
アーキテクチャ大量の並列コア決定論的なデータフロー
推論スループット高い並列性最大1,500トークン/秒(エージェント向け)
電力効率汎用的推論特化で高効率

LPUの設計思想は「コンパイル時にすべての実行パスを決定し、実行時にキャッシュミスをゼロにする」こと。GPUがSRAMとDRAM間のデータ転送でボトルネックを生じやすいのに対し、LPUは静的なデータフローで予測可能な高速推論を実現する。エージェントが1タスクに20〜30回の推論を行う時代には、この特性が際立つ。


3. Feynmanアーキテクチャ(2028年):3Dスタッキング時代へ

項目内容
製造プロセスTSMC A16(1.6nm):NVIDIAの1nm級初号機
構造的革新3Dダイ・スタッキング(NVIDIAシリコン初採用)
メモリカスタムHBM4E/HBM5(独自仕様)
CPUNVIDIA Rosa(ロザリンド・フランクリン命名)
LPULP40(Groqチームとの共同開発)
ネットワークKyber-CPO(光スイッチング活用)

3Dダイスタッキングとは何か

従来のGPUは「2Dレイアウト」だ。演算コア、SRAMキャッシュ、制御回路が同一シリコン平面に配置される。3Dスタッキングでは複数のダイを縦方向に積み上げ、TSV(Through-Silicon Via)で接続する。

これにより:

  • SRAM容量の大幅増加: 演算ダイの上にSRAMダイを積むことで、オンチップキャッシュを数十GB規模に拡張できる
  • メモリ帯域の爆増: TSVによるダイ間接続はHBMよりもさらに短い配線長を実現
  • フットプリント削減: 同じダイサイズでより多くの機能を集積

AMDがRDNA/CDNA系でHBM3Eとの近接配置を進め、Intel Gaudi 3が独自の2.5D実装を採用するなか、NVIDIAはFeynmanで業界最先端の3D実装へ踏み込む。ムーアの法則が横方向では終わり、縦方向の競争に移行していることの象徴だ。


4. ソフトウェアスタック:NemoClaw・Cosmos 3

NemoClaw:エージェントAIの実行基盤

コンポーネント役割
NemoClaw セキュアランタイムポリシーベースのセキュリティ・ネットワーク保護。自律エージェントの安全実行
AI-Q ブループリントオープンソースのエージェント検索基盤。DeepResearch Bench最高精度・クエリコスト50%削減
Nemotron 3 Super(120B)ハイブリッドMoEアーキテクチャ。フロンティア性能のオープンモデル
Nemotron 3 Nano(4B)エッジ・ローカルエージェント向け軽量モデル

Cosmos 3:物理AIの世界基盤モデル

Cosmos 3は「ロボティクスのデータ問題をコンピューティング問題に変換する」ことを目的とした世界基盤モデルだ。実世界でのデータ収集コストが高いロボティクスAIにおいて、合成データを大量生成することでロングテール・シナリオをカバーする。物理AIデータファクトリーブループリントと組み合わせることで、限られた実データを多様な学習データに変換できる。


5. 全体ロードマップ

世代時期主な技術革新
Vera Rubin2026年下期HBM4・Groq LPU統合・FP4 50PFLOPs・推論10倍効率
Kyber(ラック)2027年144GPU垂直ラック・光スイッチ(CPO)
Feynman2028年予定TSMC A16・3Dダイスタッキング・カスタムHBM・LP40 LPU

まとめ

GTC 2026の技術的本質は3つだ。

  1. GPU+LPUの役割分担: GPUが並列学習・大バッチ推論を担い、LPUがシーケンシャルなエージェント推論を担う。単一チップの限界を超えた「異種混合アーキテクチャ」への移行
  2. 3Dスタッキングによるムーアの法則の継続: 2Dの微細化限界を縦方向で突破。Feynmanで本格化する3D実装は、次の10年の計算効率改善の軸となる
  3. ソフトウェアで差別化を固める: NemoClaw・Cosmos 3・GR00T N2で「NVIDIAハードウェアでしか動かない最適化されたソフトウェア」を積み上げ、ロックインを強化している

参考資料

※本記事は情報提供を目的としており、内容の正確性・完全性を保証するものではありません。

コメント

タイトルとURLをコピーしました