
NVIDIA は、11 月 13 日から 18 日にかけて開催される高性能コンピューティング、ネットワーキング、ストレージ、分析に関する国際会議 (SC22) に先立ち、11 月 11 日にいくつかのエッジ コンピューティング パートナーシップと製品を発表しました。
エッジにおけるハイパフォーマンスコンピューティングソリューションスタックには、MetroX-3 Infinibandエクステンダー、スケーラブルで高性能なデータストリーミング、そしてデータ移行の高速化とオフロードを実現するBlueField-3データ処理ユニットが含まれています。さらに、Holoscan SDKは科学エッジ機器向けに最適化されており、開発者は標準のC++およびPython APIを介してアクセスでき、画像データ以外のデータにも対応しています。
参照:iCloud vs. OneDrive:Mac、iPad、iPhone ユーザーに最適なのはどちら?(無料 PDF)(TechRepublic)
これらはすべて、高忠実度研究と実装におけるエッジのニーズに対応するために設計されています。NVIDIAのアクセラレーテッドコンピューティング担当リードプロダクトマネージャーであるディオン・ハリス氏は、展示会前のバーチャルブリーフィングで、「エッジにおけるハイパフォーマンスコンピューティングは、2つの大きな課題に対処する」と述べました。
まず、高忠実度科学機器はエッジで大量のデータを処理します。これらのデータはエッジとデータセンターの両方でより効率的に利用される必要があります。次に、大量の高忠実度データの生成、分析、処理においては、配信データの移行に関する課題が浮上します。研究者は、データ移行を自動化し、コアに移動するデータ量とエッジで分析するデータ量の決定を、すべてリアルタイムで実行できる必要があります。AIはここでも役立ちます。
「エッジデータ収集機器は、リアルタイムのインタラクティブな研究アクセラレータに変わりつつあります」とハリス氏は語った。
「準リアルタイムのデータ転送が求められています」と、ZettarのCEOであるChin Fang氏はプレスリリースで述べています。「データ移動機能を内蔵したDPUは、ワークフローに大幅な簡素化と効率化をもたらします。」
NVIDIAの製品発表
発表された新製品はそれぞれ異なる方向からこの問題に取り組んでいます。MetroX-3 Long Haulは、NVIDIAのInfiniband接続プラットフォームを25マイル(40キロメートル)まで拡張し、別々のキャンパスやデータセンターを1つのユニットとして機能させることを可能にします。これは、様々なデータ移行ユースケースに適用可能で、NVIDIAのネイティブなリモート・ダイレクト・メモリ・アクセス機能とInfinibandのその他のネットワーク内コンピューティング機能を活用します。
BlueField-3アクセラレータは、データ移行ストリームにおけるオフロード効率とセキュリティを向上させるように設計されています。Zettarはカンファレンスで、データ移行にNVIDIA BlueField DPUを活用したデモンストレーションを行い、同社の設置面積を13Uから4Uに削減できることを示しました。具体的には、Zettarのプロジェクトでは、BlueField-2 DPUを搭載したDell PowerEdge R720とColfax CX2265iサーバーを使用しています。
Zettarは、今日のITにおける2つのトレンド、すなわちエッジツーコア/クラウドパラダイムと、コンポーザブルかつ分散化されたインフラストラクチャが、データ移行の加速化に役立つと指摘しています。物理的に分散したインフラストラクチャ間でのデータ移行をより効率的に行うことで、全体的なエネルギーとスペースの削減にもつながり、データセンターにおけるフォークリフトアップグレードの必要性も軽減されます。
「今日、ほぼすべての業界がデータ津波に直面しています」とファン氏は述べた。「…今、機器が設置されているエッジからコアやクラウドへとデータを移動し、AIを活用したパイプラインでさらに分析することが、これまで以上に急務となっています。」
エッジでのスーパーコンピューティングの拡大
SC22 で発表されたその他の NVIDIA エッジ パートナーシップの中には、One Stop Systems と TMGcore の TMGcore の EdgeBox 4.5 内の OSS Rigel Edge スーパーコンピューターの液浸冷却バージョンがありました。
「Rigel は、NVIDIA HGX A100 4GPU ソリューションとともに、過酷なエッジ環境向けのスーパーコンピューターの設計、電力、冷却の進歩において飛躍的な進歩を表しています」と、NVIDIA のアクセラレーテッド コンピューティング製品管理担当シニア ディレクターの Paresh Kharya 氏は述べています。
ワンストップ・システムズ社によると、エッジ環境向けの堅牢な液冷式スーパーコンピュータのユースケースには、自律走行車、ヘリコプター、移動型指令センター、航空機やドローンの機器ベイなどが含まれる。このシステム内の液体は「水に似た」非腐食性の混合物で、沸点特性に基づいて電子機器の熱を除去するため、大型のヒートシンクは不要になる。これにより筐体のサイズ、消費電力、騒音が低減されるだけでなく、液体は衝撃や振動を緩和する役割も果たす。最終的な目標は、可搬型データセンタークラスのコンピューティングレベルをエッジにもたらすことだ。
スーパーコンピューティングにおけるエネルギー効率
NVIDIAはエネルギー効率の向上についても計画を示しており、H100 GPUはA100と比較して約2倍のエネルギー効率を誇ります。NVIDIA Hopper GPUアーキテクチャをベースとするH100 Tensor Core GPUは、A100の後継機種です。第2世代のマルチインスタンスGPUテクノロジーにより、データセンターユーザーが利用できるGPUクライアントの数が飛躍的に増加します。
さらに同社は、より効率的なスーパーコンピュータを選出するGreen500リストの上位30システムのうち23システムに自社の技術が採用されていると発表しました。リストの1位は、ニュージャージー州にあるフラットアイアン研究所のスーパーコンピュータで、レノボが構築したものです。このスーパーコンピュータには、レノボのThinkSystem SR670 V2サーバーと、NVIDIA Quantum 200Gb/s InfiniBandネットワークに接続されたNVIDIA H100 Tensor Core GPUが搭載されています。わずか5ナノメートル幅の極小トランジスタが、サイズと消費電力の削減に貢献しています。
「このコンピューターにより、より少ない電力でより持続可能な未来に貢献する、よりスマートな技術を使って、より多くの科学研究を行うことが可能になります」と、フラットアイアン研究所の科学計算コアの共同ディレクター、イアン・フィスク氏は述べた。
NVIDIAはまた、Grace CPUとGrace Hopperスーパーチップについても言及しました。これらは、フラットアイアン研究所で行われているような、加速コンピューティングがより多くの研究を推進する未来を見据えたものです。NVIDIAによると、GraceとGrace Hopperを搭載したデータセンターは、同じ電力予算で1.8倍の作業量を達成できるとのことです。これは、電力の20%をCPUパーティションに、80%を新しいCPUとチップによる加速部分に割り当てた、同様にパーティション化されたx86ベースの1メガワットHPCデータセンターとの比較です。
詳細については、NVIDIA の最近の AI に関する発表、メタバース向けの Omniverse Cloud の提供内容、および物議を醸しているオープン ソース カーネル ドライバーをご覧ください。