NVIDIA GTC記事の技術用語解説：HBM4・FP4・LPU・3Dダイスタッキング

先日公開した「NVIDIA GTC 2026 技術解説：Vera Rubin・Feynmanの全貌」では、最先端の半導体技術に関わる専門用語が多数登場しました。この記事ではそれらをひとつひとつ噛み砕いて解説します。

HBM4（高帯域幅メモリ）
FP4推論（4ビット浮動小数点）
LPU（Language Processing Unit）
3Dダイスタッキング・TSV
まとめ

HBM4（高帯域幅メモリ）

HBM（High Bandwidth Memory）は、GPUの近くに積層配置する高速メモリです。通常のDRAMと異なり、複数のメモリチップを縦に積み重ね（スタック）、広い経路（バス幅）でデータをやり取りします。

HBM4はその第4世代で、Vera Rubin GPUでは1基あたり288GBを搭載します。AIの推論・学習では大量のパラメータを高速に読み書きする必要があるため、このメモリ帯域が性能のボトルネックになりやすく、HBMの世代進化がGPU性能向上に直結します。主要サプライヤーはSK Hynixとマイクロンです。

FP4推論（4ビット浮動小数点）

AIモデルの計算では、数値の精度（ビット数）を下げることで処理速度を大幅に上げる手法が使われます。従来はFP32（32ビット）やFP16（16ビット）が主流でしたが、FP4（4ビット浮動小数点）はさらに精度を落とす代わりに、同じシリコン面積で50 PFLOPs（1秒間に50京回の演算）という圧倒的なスループットを実現します。

推論タスク（すでに学習済みのモデルを使って予測する処理）では、FP4でも精度劣化が許容範囲に収まるケースが増えており、コスト効率の観点から急速に普及が進んでいます。

LPU（Language Processing Unit）

LPUはGroqが開発した、言語モデルの推論に特化したプロセッサです。GPUが「並列に大量の演算」を得意とするのに対し、LPUは「トークンを順番に高速生成する」シーケンシャル処理に最適化されています。

エージェントAI（複数の小さな推論リクエストを連続して処理する用途）では、GPU単体よりLPUとの組み合わせが効率的です。NVIDIA GTC 2026では、Vera RubinとGroq LPUの統合がエージェントAI基盤として発表され注目を集めました。

3Dダイスタッキング・TSV

3Dダイスタッキングとは、複数の半導体チップ（ダイ）を縦方向に積み重ねて1パッケージ化する技術です。平面上に並べるよりも配線距離が短くなり、高速かつ省電力な接続が実現します。

積層したダイ同士をつなぐ垂直の貫通配線がTSV（Through-Silicon Via）です。髪の毛より細い穴をシリコンに開け、そこに銅などの導体を埋め込むことでダイ間の電気信号経路を形成します。2028年予定のFeynman世代GPUでは、この技術によりSRAM容量を数十GB規模に拡張し、ムーアの法則を「垂直方向」で継続させる設計が採用される見込みです。

まとめ

HBM4・FP4・LPU・3Dダイスタッキング・TSVはいずれも、AI時代のGPUアーキテクチャを理解する上で欠かせない基礎技術です。これらの技術がどう組み合わさって「推論コスト1/10」を実現しているかを把握すると、今後のNVIDIAロードマップやライバル企業の動向もより深く読めるようになります。