データセンター ネットワーク (DCN) の需要の推移
ネットワークは IT インフラストラクチャの重要なコンポーネントであり、すべての IaaS 層リソースを接続してサービスを提供する基盤として機能します。データの時代では、クラウド コンピューティング、ビッグ データ、人工知能の中核はデータそのものであり、ネットワークはデータ フローを運ぶ高速高速道路の役割を果たします。
データセンター ネットワークは過去 10 年間で目覚ましい変化を遂げ、金融業界の厳格で標準化されたデータセンターから、技術の波をリードする現在のインターネット企業へと進化しました。
現在、200 を超えるプロジェクトを含むクラウド ネイティブ テクノロジの急速な発展により、アプリケーションの開発、展開、運用、保守は変化しました。多数のアプリケーション システムはクラウド ネイティブ テクノロジを使用して構築されており、コンテナはビジネス ワークロードの最小単位として機能し、俊敏性、一貫性、強力なレプリケーションおよびスケーリング機能を特徴としています。多数のコンテナで構成されるクラスターは、VM の数をはるかに上回ります。さらに、よりきめ細かいリソース割り当てメカニズムと信頼性分散戦略により、ビジネス コンテナとさまざまな分散システム コンポーネント間のクロスノード通信と相互作用がより頻繁に行われるようになりました。これらは信頼性の高いエンドツーエンド転送を提供するために外部ネットワークに依存しており、トラフィック制御と視覚化に対する要求が高まっています。
さらに、ビッグデータや人工知能技術の普及に伴い、それらをベースとしたレコメンドエンジン、画像検索・認識、音声対話、機械翻訳などのシステムが広く応用されるようになりました。ビッグデータと AI は、分析やマイニングのために大量のデータが保存されており、ビジネス管理と市場競争に不可欠なツールとなっています。データ処理やモデル トレーニング (機械学習/深層学習) からオンライン サービスに至るまで、各ステップは強力なコンピューティングと膨大なデータに依存しており、コンピューティング リソースとストレージ リソースの消費量が増加します。これに伴い、データセンター構築は大規模、超大規模へと進化し、それに伴うネットワーク規模も拡大しており、ネットワークの自動化やインテリジェントな運用が必須となっています。
最後に、過去 5 年間で長尺および短尺のビデオ、ライブ ストリーミング、VR/AR、その他のビデオ ストリーミング メディアが爆発的に成長したことについて言及することが重要です。これらはニュース、教育、ショッピング、社交、旅行、ゲームエンターテイメントなどのさまざまな分野に浸透しており、膨大なユーザーベースと長い使用期間を誇っています。 XNUMXG 端末の急速な普及に伴い、高品質のビデオと低遅延の視聴体験に対するユーザーの期待が高まり続け、ネットワーク帯域幅の消費がさらに増加しています。
ビジネス要件の変化傾向とネットワーク技術の急速な発展に対応して、データセンター ネットワーク機器の反復速度も加速しています。現在、 データセンタースイッチ 2 年ごとに新世代の製品に更新され、各新世代では、パフォーマンスがほぼ 2 倍になり、スループットが向上し、テーブル エントリが大きくなり、機能も増え、ネットワーク内での役割の位置付けがより的確になります。
サーバー側のネットワーク カードと光モジュールの業界全体の環境によって、データセンターのアクセス リンクの帯域幅は 10G -> 25G -> 50G -> 100G -> 200G -> 400G と進化し、インターコネクト リンクの帯域幅も進化しました。 40G -> 100G -> 200G -> 400G -> 800G。主なシナリオは、25G アクセス + 100G 相互接続の組み合わせから、現在の 100G アクセス + 400G 相互接続の組み合わせに移行しました。 GPU シナリオでは、アクセスは 100G、200G、400G と発展します。 800G.
前述の状況を考慮し、ネットワーク アーキテクチャに目を向けると、DCN ネットワーク アーキテクチャの選択は、ビジネス要件、現在の技術条件、設備コスト、管理コスト、人的資源への投資などの多くの要因の影響を受けます。すべての顧客のシナリオとニーズに対応できる単一のアーキテクチャはありません。選択を行う前に、総合的な検討とバランスを考慮する必要があります。
2 層 Clos アーキテクチャ: 中小規模のデータセンターに最適
2 層 Clos アーキテクチャは、最も古く、最も広く適用されているネットワーク構造の 1 つであり、今日でも多くの業界のクライアントに好まれています。ネットワーク機器の役割は 2 つだけです。短いデータ転送パスを確保し、1 ホップ内でのクロスリーフ アクセス性を確保し、パスとレイテンシの強力な一貫性を提供します。統合アクセス アプローチにより、BGP プロトコルの導入、ポリシー制御、日常的なメンテナンス、トラブルシューティングなどの導入と水平スケーリングが大幅に容易になります。これは、運用スタッフが少ない中小企業に特に適しています。
2 層 Clos アーキテクチャでは、Spine スイッチのパフォーマンスと信頼性に高い要求が課せられ、通常はデータセンターのシャーシベースのコア スイッチ製品が採用されます。可変セル転送と VoQ スケジューリング メカニズムにより、Spine デバイス内での厳密なノンブロッキング スイッチングが保証され、分散型大規模キャッシュの構成はトラフィック バーストの処理に自然に優れています。シャーシベースのコア スイッチには、独立したコントロール プレーン、フォワーディング プレーン、およびサポート システムがあり、冗長設計が採用されているため、システム全体の信頼性がボックス タイプのスイッチよりもはるかに高くなります。
2 層 Clos アーキテクチャは、商用 SDN コントローラ ソリューションとの互換性においてより成熟しています。 SDN コントローラーと組み合わせることで、EVPN に基づいたネットワーク オーバーレイ ソリューションを迅速に構築でき、東西および南北のサービス チェーン展開の複雑さを軽減し、VM、ベアメタルなどのフルフォームのコンピューティング リソースのリンクに対するネットワークの需要に対応できます。 、クラウド シナリオのコンテナー。
さらに、このアーキテクチャは、エッジ コンピューティング ネットワークを構築するためにさまざまな場所にコンバージェンス ルームやエッジ ルームを展開し、バックボーン ネットワークの圧力を軽減し、アクセス遅延を短縮する大企業にも適しています。
スパインは 2 つまたは 4 つのシャーシベースのコア スイッチを使用し、各リーフ スイッチには 4 つのアップリンクがあります。 3:1 のコンバージェンス比 (10G アップリンク、440G ダウンリンクを備えた 4810G リーフ、25G アップリンク、4100G ダウンリンクを備えた 4825G リーフ) を確保し、サポートされるサーバー規模 (デュアル アップリンク) はそれぞれ 5000 および 10000 以上に達します。
トポロジからわかるように、4 層 Clos アーキテクチャのネットワーク規模、つまり水平拡張機能は、Spine デバイスによって提供されるポートの総数 (デバイス数 * デバイスごとのポート) によって制限されます。リーフ スイッチのアップリンク ポートの数は固定されているため (通常は 8 ~ XNUMX)、スパイン層スイッチの数も制限されており、継続的に増やすことはできません。
3 層 Clos アーキテクチャ: 大規模およびハイパースケールのデータセンターに最適
20,000 層 Clos アーキテクチャでサポートされるサーバー規模は、一般的に XNUMX 台を超えません。XNUMX 層 Clos アーキテクチャの導入により、XNUMX 層アーキテクチャで発生するネットワーク規模のボトルネックが解消されます。XNUMX 層 Clos アーキテクチャでは、既存の XNUMX つの層の間に集約スイッチの層 (Pod Spine) が追加されます。Pod Spine スイッチのグループと、接続されているすべての Leaf スイッチが Pod を形成します。複数の Pod が Spine 層スイッチを介して相互接続され、ネットワーク全体が構成されます。Pod の数を増やすと、ネットワークの水平スケーリングが可能になり、拡張性が大幅に向上します。さらに、Pod 単位でサービスを展開することで、さまざまなビジネス ニーズへの適応、差別化されたサービスの提供、分離の確保において柔軟性が向上します。
100 層 Clos アーキテクチャの各ポッド内で、ポッド スパインは XNUMX つまたは XNUMX つの高密度 XNUMXG ボックスタイプ スイッチを採用します。 Pod Spine のポートの半分は Spine への上向きの接続に使用され、残りの半分は Leaf スイッチへの下向きの接続に使用されます。各リーフ スイッチには XNUMX つまたは XNUMX つのアップリンクがあります。一般的なシナリオは次のとおりです。
シナリオ A: Pod Spine は 64 つの 100 ポート 9820G ボックスタイプ スイッチ (S64-3H) を使用します。各リーフ スイッチには 1 つのアップリンクがあります。ポッド内で 25:4100 のコンバージェンス (4825G アップリンク、768G ダウンリンクを備えた XNUMXG リーフ) により、単一のポッドでデュアル アップリンクで XNUMX ユニットのサーバー規模をサポートできます。
シナリオ B: Pod Spine は 128 つの 100 ポート 9820G ボックスタイプ スイッチ (S8-1.5C) を使用します。各リーフ スイッチには 1 つのアップリンクがあります。ポッド内の 25:8100 コンバージェンス (4825G アップリンク、1536G ダウンリンクを備えた 1G リーフ) により、単一のポッドはデュアル アップリンクで 1 ユニットのサーバー規模をサポートできます。 25:8100 コンバージェンス (3225G アップリンク、1024G ダウンリンクを備えた XNUMXG リーフ) により、単一のポッドはデュアル アップリンクで XNUMX ユニットのサーバー規模をサポートできます。
高密度アグリゲーションスイッチ Pod Spine の導入により、Spine 層のラック型コアスイッチの限界を超え、数十台の導入が可能になりました。 Spine 層のラック型コア スイッチが提供するポートの総数は、数十の Pod の接続に使用でき、ネットワーク全体で 100,000 台を超えるサーバー規模をサポートできます。
さらに、Pod Spine スイッチ内のアップリンク ポートとダウンリンク ポートの比率を調整することで、各 Pod の収束率を柔軟に定義できます。これは、さまざまなビジネス ニーズを満たすだけでなく、コストを削減し、不必要な無駄を避けるのにも役立ちます。
多層 Clos アーキテクチャ: 大規模およびハイパースケールのデータセンターに最適
ボックス型デバイスをベースにしたマルチプレーン ネットワーク アーキテクチャは、大手インターネット企業が大規模およびハイパースケールのデータセンター ネットワークを構築するために採用している最新のアーキテクチャです。このアーキテクチャは Facebook の F4 に由来します。このネットワークの構築に使用された 6 世代のスイッチ、12 パックとバックパックはマルチチップ (4 チップ) 設計に基づいていたため、管理と展開が不便でコストがかかりました。 F16 から F16 への進化に伴い、チップ機能の向上により、FXNUMX の構築に使用される Minipack スイッチはシングルチップ設計を採用し、消費電力、コスト、技術的障壁が大幅に削減されました。このソリューションはより成熟し、それ以来、このアーキテクチャは中国のインターネット企業によって導入されています。
このアーキテクチャについては、「データ センター ファブリックの紹介、次世代 Facebook データ センター ネットワーク」および「Facebook のデータ センター ネットワークの再発明」という文書で詳細に説明されています。 8 層 Clos アーキテクチャと比較して、ボックス型デバイスに基づくマルチプレーン ネットワーキング アーキテクチャでは、スパイン層のラック型スイッチがボックス型スイッチに置き換えられるため、ネットワークのすべての層がボックス型スイッチで構成されます。デバイス接続の点では、各ポッド スパインがすべてのスパイン レイヤ スイッチと完全にメッシュする必要がある XNUMX 層 Clos アーキテクチャとは異なり、新しいアーキテクチャではスパイン レイヤ スイッチが複数のグループに分割されます (グループの数はポッドの数に対応します)。各ポッドのスパイン スイッチ)。 Spine スイッチの各グループはプレーンを形成します (図に示すように、Spine レイヤーは XNUMX つのプレーンに分割され、異なる色で区別されます)。各 Pod Spine スイッチは、対応するプレーン内の Spine スイッチと完全にメッシュするだけで済みます。これにより、Spine レイヤー全体でより多くの Pod を接続できるようになり、数十万台のサーバーをサポートするハイパースケールのデータセンターを構築できます。さらに、ボックス型スイッチのパフォーマンスが向上するにつれて、このアーキテクチャはその容量を拡張し続けることができます。
完全装備の 12516 ポート 48G サービス ボードを備えたコア シャーシ スイッチ S100X-AF と、それぞれ 9820 ポートの 8G を備えた 128 台のボックス スイッチ S100-XNUMXC は、どちらも同じ数の 100G ポート(合計 768 個)ですが、ボックス スイッチ ソリューションを選択すると、コスト、消費電力、放熱の面で大きなメリットが得られます。また、従来のコア シャーシ スイッチに必要なキャビネット スペースと電力配分の特別な要件も排除されます。
Spine と Pod Spine は両方とも、一貫した機能と転送遅延を備えた同一の機器を利用するため、新機能の開発とネットワーク全体にわたるアプリケーションのシームレスな展開が容易になります。さらに、ネットワークは 100G ネットワークから 200G ネットワークにスムーズに移行できます。 400G、将来の高速ネットワークも同期します。さらに、シングルチップ設計により、ボックス スイッチで構築されたスパイン レイヤー全体は、シャーシ デバイスを使用する場合と比較して転送レイテンシが大幅に低くなり、ポッド全体のアクセス レイテンシがさらに削減されます。
それにもかかわらず、このアーキテクチャには新たな課題が生じます。スパイン層デバイスの数はシャーシ スイッチを使用する場合よりも大幅に多く、ボックス スイッチの個々の信頼性はコア シャーシ スイッチよりも低いため、ネットワーク管理と日常運用に大きな課題が生じています。サポートする管理プラットフォーム、監視システムなどは、これらの変化に適応できる必要があります。このため、ネットワーク運用チームには、洗練された人員部門、広範な運用経験、堅牢な技術スキル、プラットフォーム開発能力、機器やネットワークの障害による事業運営への影響を緩和および軽減するための全体的なネットワーク制御など、より高度な要件が必要となります。
最も典型的な 3 つの DCN ネットワーク アーキテクチャが上で紹介されました。これらのネットワークを効果的に管理するには、ネットワーク可視化テクノロジーを活用する必要があります。ネットワーク視覚化テクノロジーは、エンドツーエンドのトラフィック監視とリスク警告を可能にし、トラブルシューティングを支援するだけでなく、データの蓄積と分析を通じて、データセンターのネットワーク アーキテクチャ設計 (モデル、コンバージェンス率、および POD スケールなど)、重要な技術ツールとなっています。
ネットワーク視覚化テクノロジーは、ますますプロアクティブ、効率的、インテリジェントになってきています。例えば、gRPCを活用することで、デバイスからさまざまな情報をリアルタイムかつ高精度に収集できます。 INT または Telemetry Stream を使用して、ネットワーク内のビジネス データ送信のパスと遅延を取得できます。 TCB を使用すると、デバイス MMU を監視して、キューのパケット損失時間、理由、および破棄されたパケットをキャプチャできます。 MOD は、デバイスの内部転送プロセス中に発生するパケット損失を検出し、パケット損失の理由と廃棄されたパケットの特性をキャプチャできます。パケット トレースにより、転送ロジックの詳細な分析が可能になり、チップ内でのパケット転送をシミュレートして問題の根本原因を特定できます。
将来、インテリジェント NIC は DCN ネットワークで重要な役割を果たすようになります。プログラム可能な機能を備えたインテリジェント NIC は、CPU リソースを解放して高性能な転送を実現するだけでなく、トンネルのカプセル化/カプセル化解除、仮想スイッチング、暗号化/復号化、RDMA などの機能も提供します。ビジネス シナリオと需要の増加に伴い、より多くのデータ プレーン機能がインテリジェント NIC によって処理され、サーバーまたはスイッチベースの実装の制限が打ち破られます。この移行は、パフォーマンス、機能性、柔軟性の完璧なバランスを実現することを目的としています。インテリジェント NIC は、DCN ネットワークの最末端にあるリーフ スイッチに取って代わります。その結果、ネットワーク アーキテクチャ、プロトコルの展開、可視化テクノロジなどがインテリジェント NIC の導入によって変化し、エンドツーエンドのパフォーマンス最適化とサービス保証、エンドツーエンドの検出と監視、SRv6 などの新技術の適用が容易になります。将来の DCN ネットワークは進化し、ますます多様化する上位層ビジネスに、より安定した、効率的で柔軟なネットワーク サービスを提供します。
関連製品:
- NVIDIA MMS1Z00-NS400 互換 400G NDR QSFP112 DR4 PAM4 1310nm 500m MPO-12 FEC 光トランシーバー モジュール付き $800.00
- NVIDIA MMS4X00-NS400 互換 400G OSFP DR4 フラットトップ PAM4 1310nm MTP/MPO-12 500m SMF FEC 光トランシーバー モジュール $800.00
- NVIDIA MMA1Z00-NS400 互換 400G QSFP112 SR4 PAM4 850nm 100m MTP/MPO-12 OM3 FEC 光トランシーバー モジュール $650.00
- NVIDIA MMA4Z00-NS400 互換 400G OSFP SR4 フラットトップ PAM4 850nm OM30 で 3m/OM50 で 4m MTP/MPO-12 マルチモード FEC 光トランシーバ モジュール $650.00
- NVIDIA MMS4X00-NM-FLT 互換 800G ツインポート OSFP 2x400G フラットトップ PAM4 1310nm 500m DOM デュアル MTP/MPO-12 SMF 光トランシーバー モジュール $1200.00
- NVIDIA MMA4Z00-NS-FLT 互換 800Gb/s ツインポート OSFP 2x400G SR8 PAM4 850nm 100m DOM デュアル MPO-12 MMF 光トランシーバー モジュール $850.00
- NVIDIA MMS4X00-NM 互換 800Gb/s ツインポート OSFP 2x400G PAM4 1310nm 500m DOM デュアル MTP/MPO-12 SMF 光トランシーバー モジュール $1100.00
- NVIDIA MMA4Z00-NS 互換 800Gb/s ツインポート OSFP 2x400G SR8 PAM4 850nm 100m DOM デュアル MPO-12 MMF 光トランシーバー モジュール $750.00
- NVIDIA MCA4J80-N003 互換 800G ツインポート 2x400G OSFP から 2x400G OSFP InfiniBand NDR アクティブ銅線ケーブル $600.00
- NVIDIA MCP7Y00-N001 互換 1m (3 フィート) 800Gb ツインポート OSFP から 2x400G OSFP InfiniBand NDR ブレークアウト ダイレクト アタッチ銅線ケーブル $175.00