世界最強のAIファクトリーを構築する競争には、AI 自体の飛躍に追従できるネットワークが不可欠です。
NVIDIA Spectrum-X イーサネットのスケールアウト インフラは、現在利用可能な最先端の AI ネットワーク技術として、この競争の最前線に立っています。パフォーマンス、耐障害性、拡張性において一切の妥協を許さない業界のリーダー企業たちが、このインフラを導入しています。
その中には、OpenAI、Microsoft、Oracle などが含まれます。
NVIDIA、Microsoft、OpenAI などの企業は、RDMA トランスポート プロトコルであるマルチパス信頼性接続 (MRC) の導入を通じて、業界をリードする存在であることを証明しています。MRC により、単一の RDMA 接続で複数のネットワーク パスにトラフィックを分散させることが可能になり、大規模 AI トレーニング ファブリックのスループット、負荷分散、可用性が向上します。
例えるなら、町を横断する一車線の道路を、巧妙に設計された格子状の街路とリアルタイム交通情報アプリを組み合わせた仕組みに置き換えるようなもので、これにより運転手は渋滞や通行止めを避けて迂回ルートを選択できるようになると考えることができます。
OpenAI で Industrial Compute 部門の責任者である Sachin Katti 氏は次のように述べています。「Blackwell 世代におけるMRCの導入は非常に成功しており、これは NVIDIA との強力な協力関係によって実現しました。また MRC のエンドツーエンドのアプローチにより、一般的に発生するネットワーク関連の速度低下や中断の多くを回避でき、大規模な最先端 AI トレーニングにおいて高い効率を維持することができました」
さらに、Microsoft と NVIDIA は、次世代 AI に必要なインフラの発展に重点を置いた協力関係を長年にわたって築いています。先端の大規模言語モデル(LLM)のトレーニングと展開のために専用に構築された最大級の AI ファクトリーである、Microsoft の Fairwater と Oracle Cloud Infrastructure (OCI) のAbilene データ センターは、パフォーマンス、拡張性、効率性の要件を満たすために MRC を活用しています。NVIDIA Spectrum-X イーサネットはこの環境に適しており、大規模な AI モデルやアプリケーションを確実に実行するために必要なネットワーク基盤を提供します。
NVIDIA Spectrum-X イーサネット ハードウェア上でパフォーマンスが最適化され、実稼働環境で初めて実証された MRC は、現在 Open Compute Project を通じてオープン仕様として公開されており、Spectrum-X イーサネット プラットフォームの威力を実証しています。専用設計のハードウェア、詳細なテレメトリ、インテリジェントなファブリック制御が連携することで、ネットワークを介して 2 つのシステム間でデータがどのように移動するかを制御する一連のルールである新しいプロトコルを、概念段階からギガスケール AI の実稼働へと導きます。
MRC は、利用可能なすべてのパスにトラフィックを負荷分散することで高い GPU 利用率を実現し、トレーニング実行中、すべての GPU が必要な帯域幅を確保できるようにします。また、輻輳時でも、過負荷状態のパスをリアルタイムで動的に回避することで、高い帯域幅を維持します。
データ損失が発生した場合でも、インテリジェントな再送信機能によって迅速かつ正確な復旧が可能となり、長時間実行中のジョブに対する短時間の中断の影響を最小限に抑え、GPU のアイドル時間の回避に役立ちます。
さらに、管理者はトラフィック経路に対してきめ細かな可視化と制御ができるため、運用が簡素化され、大規模な環境でのトラブルシューティングが迅速化されます。
Spectrum-X イーサネット上に展開された MRC は、大規模な環境における耐障害性を考慮して最適化、設計されています。その障害迂回技術により、ネットワーク パスの障害をわずか数マイクロ秒で検出し、ハードウェアレベルで自動的にトラフィックを迂回させることができます。
この障害迂回技術は、数千台の GPU を同期させ続ける必要がある AI トレーニング クラスターにおいて極めて重要です。なぜなら、わずかなネットワーク障害でもトレーニング ジョブ全体に遅延が起こる、または中断する可能性があるからです。Spectrum-X イーサネットは、ハードウェア レベルで高速に応答することでこれを防止し、ギガスケール AI ファブリック全体において、トラフィックが意図した経路に沿って確実に流れるようにします。
ギガスケール AI ファクトリーの実現に不可欠なもう一つの革新的な技術が、マルチプレーン ネットワーク設計です。OpenAI では、Spectrum-X イーサネットと MRC を組み合わせることで、このマルチプレーン ネットワークを構築しています。マルチプレーン ネットワークは、複数の独立したネットワーク ファブリック (プレーン) で構成されており、各プレーンが GPU 間の代替通信パスを提供します。
NVIDIA Spectrum-X のマルチプレーン機能は、各プレーン間でのハードウェアベースの高速負荷分散をサポートすることで、このネットワーク アーキテクチャを強化し、パフォーマンスを犠牲にすることなく耐障害性と拡張性を向上させます。これにより、数十万基の GPU にスケールアップしても、レイテンシを予測可能な低水準に維持できます。
Spectrum-X イーサネットでは、RDMA トランスポート モデルを選択できます。Spectrum-X イーサネットのアダプティブ RDMA および MRC プロトコル、また、その他のカスタム プロトコルは、NVIDIA ConnectX SuperNIC と Spectrum-X イーサネット スイッチ上でネイティブに動作し、ギガスケールのマルチプレーン ネットワーク設計をサポートします。
このように、今日の最大規模の AI クラスターを支える Spectrum-X イーサネットのハードウェアおよびソフトウェア インフラにより、お客様は自身のワークロードに適したトランスポートを柔軟に選択できます。
MRC トランスポート プロトコルは、現代の AI インフラ全体にわたって統合可能な、柔軟かつコンポーザブルなプラットフォームとして、業界で Spectrum-X イーサネットが活用されている最新の事例です。
AI ファクトリーの規模が拡大し続ける中、ネットワークは単にデータを高速に伝送するだけでは不十分です。インテリジェントであること、耐障害性が高いこと、そしてオープン スタンダードに基づいている必要があります。NVIDIA Spectrum-X イーサネットはこれら 3 つの要件すべてを満たし、MRCとともに、高度な AI ネットワーキングの標準を確立し続けています。
NVIDIA は、AMD、Broadcom、Intel、Microsoft、OpenAI と共同で MRC を開発しました。
NVIDIA Spectrum-X イーサネットの詳細については、ウェブページ、データシート、技術ホワイトペーパーをご覧ください。
ソフトウェア製品情報に関する利用規約はこちらをご覧ください。
