NVIDIAの最新GPUプラットフォームはBlackwell(図A)であり、AWS、Microsoft、Googleなどの企業が生成AIやその他の最新コンピューティングタスクに採用する予定であると、NVIDIAのCEOであるジェンスン・フアン氏が3月18日にカリフォルニア州サンノゼで開催されたNVIDIA GTCカンファレンスの基調講演で発表した。
図A

Blackwell ベースの製品は、2024 年後半に世界中の NVIDIA パートナーから市場に投入される予定です。Huang 氏は、生成 AI はアクセラレーテッド コンピューティングの一側面に過ぎないとして、NVIDIA とそのパートナーによる追加のテクノロジとサービスの幅広いラインナップを発表しました。
「高速化が実現すれば、インフラはCUDA GPUになります」とフアン氏は述べ、NVIDIAの並列コンピューティングプラットフォームおよびプログラミングモデルであるCUDAに言及した。「そうなれば、生成AIと同じインフラになります」
ブラックウェルは大規模な言語モデルのトレーニングと推論を可能にする
Blackwell GPUプラットフォームは、10テラバイト/秒のチップ間インターコネクトで接続された2つのダイを搭載しており、それぞれのダイは実質的に「2つのダイが1つのチップであるかのように動作する」とフアン氏は述べた。2080億個のトランジスタを搭載し、NVIDIAの2080億個プロセスを採用した4NP TSMCプロセスで製造されている。8TB/秒のメモリ帯域幅と20ペンタFLOPSのAI性能を誇ります。
NVIDIA によれば、企業にとってこれは、Blackwell が最大 10 兆個のパラメータに拡張可能な AI モデルのトレーニングと推論を実行できることを意味するという。
Blackwell は次のテクノロジーによって強化されています。
- NVIDIA 製の TensorRT-LLM と NeMo Megatron の第 2 世代。
- 第 1 世代のトランスフォーマー エンジンと比較して、コンピューティングとモデルのサイズが 2 倍になるフレームワーク。
- プライバシーとセキュリティのためのネイティブ インターフェイス暗号化プロトコルを使用した機密コンピューティング。
- データ分析とデータ サイエンスにおけるデータベース クエリを高速化するための専用の解凍エンジン。
セキュリティに関して、フアン氏は信頼性エンジンについて、「Blackwellチップ上のすべてのメモリビットと、それに接続されるすべてのメモリに対して、自己テスト、つまりインシステムテストを実行します。まるでBlackwellチップに専用のテスターを同梱して出荷しているかのようです」と述べました。
Blackwell ベースの製品は、パートナー クラウド サービス プロバイダー、NVIDIA クラウド パートナー プログラム企業、および一部のソブリン クラウドから入手可能になります。
Blackwell GPUシリーズは、2022年に発売されたGrace Hopper GPUシリーズ(図B)の後継製品です。NVIDIAによると、BlackwellはHopperシリーズと比較して、1兆パラメータのLLM上でリアルタイム生成AIを25分の1のコストと消費電力で実行できるとのことです。
図B

NVIDIA GB200 Grace Blackwellスーパーチップは複数のBlackwell GPUを接続
Blackwell GPUに加え、NVIDIAは2基のNVIDIA B200 Tensor Core GPUをNVIDIA Grace CPUに接続し、LLM推論のための新たな統合プラットフォームを提供するNVIDIA GB200 Grace Blackwellスーパーチップを発表しました。NVIDIA GB200 Grace Blackwellスーパーチップは、同社が新たに発表したNVIDIA Quantum-X800 InfiniBandおよびSpectrum-X800 Ethernetプラットフォームと接続することで、最大800GB/秒の速度を実現します。
GB200 は、今年後半に NVIDIA DGX Cloud および AWS、Google Cloud、Oracle Cloud Infrastructure インスタンスを通じて利用可能になる予定です。
新しいサーバー設計は、兆パラメータのAIモデルを見据えています
GB200は、新たに発表されたGB200 NVL72のコンポーネントの一つです。36基のGrace CPUと72基のBlackwell GPUをパッケージ化し、1.8エクサフロップスのAI性能を実現するラックスケールサーバー設計です。NVIDIAは、会話の永続的記憶、複雑な科学アプリケーション、マルチモーダルモデルなど、大規模な兆パラメータLLMのユースケースの可能性を見据えています。
GB200 NVL72 は、第 5 世代の NVLink コネクタ (5,000 本の NVLink ケーブル) と GB200 Grace Blackwell スーパーチップを組み合わせて、Huang 氏が「1 つのラックにエクソフロップスの AI システム」と呼ぶ膨大な計算能力を実現します。
「これはインターネットの平均帯域幅を超えており、基本的にあらゆる情報をすべての人に送信できる」と黄氏は述べた。
「私たちの目標は、コンピューティングのコストとエネルギー(この2つは直接相関している)を継続的に削減することです」とフアン氏は語った。
GB200 NVL72 を冷却するには、1 秒あたり 2 リットルの水が必要です。
次世代NVLinkはデータセンターアーキテクチャを加速します
第5世代のNVLinkは、最大576個のGPU間で、GPUあたり1.8TB/秒の双方向スループットを実現します。このNVLinkは、現在利用可能な最も強力な複雑なLLMでの使用を想定しています。
「将来、データセンターは AI 工場として考えられるようになるでしょう」と Huang 氏は語ります。
NVIDIA 推論マイクロサービスの紹介
可能性のある「AI ファクトリー」のもう 1 つの要素は、NVIDIA Inference Microservice (NIM) です。Huang 氏はこれを「ソフトウェアを受け取ってパッケージ化する新しい方法」と表現しました。
NVIDIAのNIMは、生成AIの実行に必要なAPI、ドメイン固有コード、最適化された推論エンジン、エンタープライズランタイムを含むマイクロサービスです。これらのクラウドネイティブなマイクロサービスは、お客様が使用するGPUの数に合わせて最適化でき、クラウドまたは自社所有のデータセンターで実行できます。NIMにより、開発者はAPI、NVIDIA CUDA、Kubernetesを1つのパッケージで利用できます。
参照: TIOBE Indexによると、 Pythonは依然として最も人気のあるプログラミング言語です。(TechRepublic)
NIMはAI構築にAIを活用し、チャットボット構築に必要な推論や学習といった高負荷な作業を効率化します。ドメイン固有のCUDAライブラリを使用することで、NIMは医療などの非常に特殊な業界向けにカスタマイズ可能です。
黄氏は、AIをプログラムするためのコードを書く代わりに、開発者は「NIM内部のプロセスに取り組むAIのチームを編成できる」と述べた。
「私たちは、デザイナーと一緒に働くチャットボット、つまり AI 副操縦士を構築したいと考えています」と Huang 氏は語った。
NIMは3月18日より提供開始となります。開発者はNIMを無料で試用し、NVIDIA AI Enterprise 5.0サブスクリプションを通じて実行できます。NIMはAmazon SageMaker、Google Kubernetes Engine、Microsoft Azure AIで利用可能で、AIフレームワークDeepset、LangChain、LlamaIndexとの相互運用が可能です。
NVIDIA AI Enterprise バージョン 5.0 で新しいツールがリリースされました
NVIDIA は、組織が顧客に生成 AI 製品を導入できるようにするための AI 導入プラットフォームである AI Enterprise のバージョン 5.0 をリリースしました。NVIDIA AI Enterprise のバージョン 5.0 では、次の機能が追加されています。
- NIM。
- さまざまな GPU アクセラレーション AI ユースケースに対応する CUDA-X マイクロサービス。
- 開発者ツールキット、AI Workbench。
- Red Hat OpenStack Platform のサポート。
- 新しい NVIDIA GPU、ネットワーク ハードウェア、仮想化ソフトウェアのサポートが拡張されました。
NVIDIA の検索拡張生成大規模言語モデル オペレーターは、現在 AI Enterprise 5.0 の早期アクセス段階にあります。
AI Enterprise 5.0 は、Cisco、Dell Technologies、HP、HPE、Lenovo、Supermicro などのプロバイダーを通じて入手できます。
GTC 2024におけるNVIDIAのその他の主要発表
NVIDIA GTC 2024 基調講演で、Huang 氏はアクセラレーテッド コンピューティングと生成 AI にわたる幅広い新製品とサービスを発表しました。
NVIDIAは、耐量子暗号を高速化するためのライブラリ「cuPQC」を発表しました。耐量子暗号の開発に取り組んでいる開発者は、NVIDIAに問い合わせて、提供状況に関する最新情報を入手することができます。
NVIDIAのX800シリーズ ネットワークスイッチは、AIインフラストラクチャを加速します。具体的には、NVIDIA Quantum-X800 InfiniBandまたはNVIDIA Spectrum-X800 Ethernetスイッチ、NVIDIA Quantum Q3400スイッチ、NVIDIA ConnectXR-8 SuperNICが含まれます。X800スイッチは2025年に提供開始予定です。
NVIDIA の基調講演で詳細が説明された主要なパートナーシップは次のとおりです。
- NVIDIA のフルスタック AI プラットフォームは、3 月 18 日から Oracle の Enterprise AI に導入される予定です。
- AWS は、NVIDIA Grace Blackwell GPU ベースの Amazon EC2 インスタンスと Blackwell セキュリティを備えた NVIDIA DGX Cloud へのアクセスを提供します。
- NVIDIAは、Google Cloudに導入されるNVIDIA Grace Blackwell AIコンピューティング プラットフォームとNVIDIA DGX Cloudサービスにより、Google Cloudの活用を加速します。Googleは提供開始日をまだ発表していませんが、2024年後半になる可能性が高いと見られています。また、NVIDIA H100を搭載したDGX Cloudプラットフォームは、3月18日よりGoogle Cloudで一般提供が開始されています。
- オラクルは、OCI Supercluster、OCI Compute、およびOracle Cloud Infrastructure上のNVIDIA DGX CloudでNVIDIA Grace Blackwellを使用します。オラクルとNVIDIAの共同AIサービスの一部は、3月18日より利用可能です。
- MicrosoftはAzureの高速化にNVIDIA Grace Blackwellスーパーチップを採用します。提供開始は2024年後半を予定しています。
- Dellは、NVIDIAのAIインフラストラクチャとソフトウェアスイートを活用し、エンドツーエンドのAIエンタープライズソリューション「Dell AI Factory」を開発します。このソリューションは、3月18日より、従来のチャネルおよびDell APEXを通じて提供されます。また、時期は未定ですが、DellはNVIDIA Grace Blackwellスーパーチップを、ラックスケールの高密度液冷アーキテクチャの基盤として採用する予定です。このスーパーチップは、DellのPowerEdgeサーバーと互換性があります。
- SAPは、NVIDIAのリトリーバル拡張生成機能をJoule Copilotに追加します。さらに、SAPはNVIDIA NIMやその他の共同サービスも活用します。
「業界全体がブラックウェルに向けて準備を進めている」と黄氏は語った。
NVIDIAのAIチップの競合
NVIDIAは、エンタープライズAIの提供において、主にAMDおよびIntelと競合しています。Qualcomm、SambaNova、Groq、そして様々なクラウドサービスプロバイダーも、生成型AIの推論とトレーニングに関して同じ分野で競合しています。
AWSは独自の推論・トレーニングプラットフォームであるInferentiaとTrainiumを保有しています。MicrosoftはNVIDIAと幅広い製品で提携しているだけでなく、Azureには独自のAIトレーニング・推論チップであるMaia 100 AI Acceleratorが搭載されています。
免責事項: NVIDIA は、3 月 18 日から 21 日までカリフォルニア州サンノゼで開催された NVIDIA GTC イベントの航空運賃、宿泊費、一部の食費を負担しました。