FiberMall は、ポリシーとチップの観点からデータセンター スイッチに液体冷却技術を導入する必要性を分析し、液体冷却技術のさまざまなソリューションの差別化、およびコールド プレート液体冷却における Ruijie の研究開発経験と成果について説明します。スイッチと浸漬液冷スイッチ。
インターネット、クラウド コンピューティング、ビッグ データ サービスの増加に伴い、データ センターの総エネルギー消費量が増加しており、そのエネルギー効率がますます注目されています。 統計によると、データセンターの平均電力使用効率 (PUE) は 1.49 であり、新しい大規模データセンターの PUE が 1.25 未満であるという要件よりもはるかに高くなっています。
PUE の削減は差し迫っています。 ネットワーク機器メーカーは、高性能を確保しながら消費電力を大幅に削減するにはどうすればよいでしょうか? パフォーマンスと消費電力の両方に影響を与える重要な要素として、冷却システムはデータセンターの改革の焦点となり、液体冷却技術は、その独自の利点により、主流の冷却ソリューションとして徐々に従来の空冷に取って代わりました。
エネルギー消費と政策の展望
PUE 値は、データセンターの総エネルギー消費量と IT 機器のエネルギー消費量の比率です。 PUE 値が 1 に近いほど、非 IT 機器のエネルギー消費が少なく、エネルギー効率レベルが高く、データセンターがよりグリーンであることを示します。
図 1. PUE メトリック
FiberMall は、冷却システムの平均エネルギー消費量がデータセンターのエネルギー消費量の 33% にも達し、これは総消費量の XNUMX 分の XNUMX に近いことを発見しました。 これは、従来のデータセンターで使用されている空冷システムが、冷却媒体として比熱容量が不足している空気を使用しているためです。 CPUなどの熱源から放熱器に伝わった熱を機器内のファンで駆動し、IT機器から奪い、ファンコイル熱交換器や空調冷凍機を循環させることで空気を冷やします。空冷の限界。 したがって、冷却システムのエネルギー使用効率を解決することは、新しい政策環境下で機器メーカーが直面する技術的反復課題となっています。
図2。 データセンターのエネルギー消費構成
チップ冷却需要の展望
スイッチ チップの開発により、高性能チップ プロセス (5nm など) により、コンピューティング パワー単位あたりの消費電力を効果的に削減できます。 ただし、スイッチング チップの帯域幅が 51.2Tbps に増加するにつれて、900 つのチップの合計消費電力は約 XNUMXW に上昇しました。 そのため、デバイスチップの放熱問題をいかに解決するかが、デバイス全体のハードウェア設計における難題となっています。
現在の空冷冷却システムでも運用は可能ですが、チップの熱流束(単位時間あたりの単位面積あたりのエネルギーの流れ)が100W/cm²を超えると、次から次へと問題が発生します。
名、ヒートシンクの熱抵抗をさらに低減すると、ボトルネックが発生します。 小さなチップをほぼキロワットの熱出力に分解できるようにするために、ヒートシンクは、アーキテクチャ アプローチのより低い総熱抵抗を使用する必要があります。 これは、ヒートシンクの容量を増やしてチップの消費電力の増加を相殺するためには、熱伝導率とヒートシンクの設計を改善する必要があることも意味します。 しかし、現在、高性能空冷ヒートシンクの設計と処理は、ほとんどがヒートパイプ、ベーパーチャンバー、3D VC サポートを取得しており、これらはすでにパフォーマンスの最適化の限界に近づいています。
秒スイッチ製品の高さ要件によって制限されるため、ヒートシンクの容積を拡大することで放熱問題を解決するのは困難です。チップから発生した熱は、チップシェル、熱伝導材料、ベイパーチャンバー、はんだ、ヒートパイプなどを突破しますが、最終的には固体空気のインターフェースフィンに閉じ込められます。また、フィンと空気の間の対流熱伝達係数が低いため、高出力チップの冷却に必要な放熱面積を確保するために、熱設計エンジニアはヒートシンクのサイズを何度も拡大する必要があり、サーバーとスイッチ内の利用可能なスペースがほぼ埋め尽くされます。空冷放熱の最終的なボトルネックは、スペースに対する非弾性需要に対するフィン構造であると言えます。さらに、風量を増やすためにファンの回転速度は30,000 RPMに達し、飛行機の離陸のような騒音は開発および運用スタッフを深く悩ませています。
最後に、チップの消費電力は依然として上昇しており、空冷システムの冷却能力は限界に達しようとしています。 現在のスイッチの冷却問題を空冷ヒートシンクで解決できたとしても、将来、102.4/204.8Tbpsが主流になり、チップの消費電力が大きくなると、いずれ空冷ヒートシンクでは対応できなくなるでしょう。 そのため、次世代の IT 機器向けに、より高性能な液体冷却技術が登場しています。 今後 5 ~ 10 年で、データセンターでは空冷が徐々に液体冷却に置き換わることが業界のコンセンサスになっています。
液冷技術の分類とメリット・デメリット
現在の液体冷却技術は、主に単相液体冷却と二相液体冷却に分けられます。 COBO のホワイト ペーパー「共同パッケージまたはオンボードの光スイッチにおける光接続の設計に関する考慮事項」で、Ruijie はデータ センター内の IT 機器の冷却システムの形態を包括的に整理および分類しました (図 3)。
単相液体冷却とは、冷却剤が放熱サイクルの過程で常に液体を維持し、高い比熱容量によって容易に熱を奪うことを意味します。
二相液体冷却とは、冷却剤が熱放散プロセス中に相変化を起こし、冷却剤が非常に高い気化潜熱によって機器から熱を除去することを意味します。
対照的に、単相液体冷却は複雑さが少なく、達成が容易であり、その放熱能力はデータセンター内の IT デバイスをサポートするのに十分です。 したがって、現段階では最良の選択です。
図 3. データセンターにおける IT デバイスの主な放熱モード
単相液冷は、コールドプレート液冷と液浸液冷に分けられます。 コールドプレート液体冷却は、液体コールドプレートを機器の主加熱装置に固定し、コールドプレートを流れる液体に依存して熱を奪い、放熱の目的を達成します。 スーパーコンピュータのデータセンターにはすでにいくつかのアプリケーションがあり、OCP 委員会は Open Rack V3.0 を通じて Manifold アーキテクチャ標準の展開を推進しています。
浸漬液体冷却は、サーバーやその他の機器の動作によって発生する熱を奪うために、液体の自然または強制循環の流れに依存して、マシン全体を直接冷却液に浸すことです。 これは、デジタル通貨のマイニングやスーパーコンピューティングで広く使用されており、OCP、ODCC、およびその他の組織によって近年議論されているホットなトピックでもあります。 大規模なクラウド コンピューティング企業のデータ センターでは、大規模な展開が行われています。
液浸液冷却の利点は次のとおりです。
- 冷却剤が機器に直接接触するため、熱放散能力が高くなり、デバイスの過熱リスクが低くなります。
- 浸漬液冷装置はファンを必要としないため、装置の振動が少なくなり、ハードウェア デバイスの寿命が長くなります。
- 浸漬液冷却室側の冷水供給温度が高く、室外側が加熱しやすい。 そのため、部屋の場所の選択はもはや空冷の時代ではなく、地域や温度によって制限されています。
もちろん、液浸液体冷却には、高コスト、高い安全要件、高い耐荷重要件などの欠点もあります。
コールドプレート液体冷却の利点は次のとおりです。
機材室に若干の変更があります。 ラック、冷却剤分配ユニット (CDU)、および給水システムのみを変更する必要があります。 また、コールドプレート液冷は、使用できる冷媒の種類が多く、使用量も浸漬式よりもはるかに少ないため、初期投資コストが低くなります。 さらに、コールド プレートの液体冷却産業チェーンはより成熟しており、市場はより受け入れられています。 ただし、コールド プレートにもいくつかの制限があります。 まず、液体ラインとコネクタが漏れ、機器の損傷やサービスの中断を引き起こす可能性があります。
浸漬液冷スイッチの研究開発実績
近年、主要企業は液浸液冷データセンターのソリューションを模索しており、Ruijie Network は液浸液冷スイッチの研究開発でより多くの経験を蓄積しており、主に構造的外観、ファンカットアウト、材料の互換性に反映されています。 、SI 特性 (シグナル インテグリティ) の XNUMX つの側面:
- 構造的外観
まず、最大の変更点は、電源がスイッチのリア パネルからフロント パネルに移動したことです。 パネル インターフェイスは、19 つの電源装置に適合するように、スイッチの幅を 21 インチから 23 ~ XNUMX インチに拡大します。 全体的なプリント回路基板 (PCB) の電源配置設計も変更されます。
図 4. スイッチの外観の変化
クーラントのコストが高いため、クーラントの総使用量を可能な限り節約するために、余分なスペースをフィラーで埋めて、サーバーベースのカスタマイズされた浸漬タンクでより多くのクーラントスペースを占有するという目的を達成します。 図 5 に示すように、黄色のブロックはフィラーで、液体を充填するために使用されます。
図5。 スイッチ構造の進化
- ファンカットアウト
構造の変更も、全体的なファンのクリッピングにつながります。 設計者は、スイッチ用のデバイス ファンを設計する必要がなくなるだけでなく、電源にファンレス設計を選択することもできます。 このような変更により、PUE 値が低下するだけでなく、サーバー ルームのノイズも大幅に減少します。
- 材料の互換性
液浸液冷の冷媒は、主にフロン類と各種油類に分けられるため、スイッチは次のXNUMX点に注意する必要があります。
- 使用する光デバイスの材料が密封されているかどうか。 それらが密閉されておらず、漏れが発生すると、光路汚染が信号の減衰やスイッチの故障につながる可能性があります。
- すべてのデバイスがクーラントと物理的または化学的に反応するかどうか。 反応が起こると、元のスイッチの一部のコンポーネントの材料比率が変化し、絶縁が変化するなどのリスクが生じます。 したがって、非金属構造部品、さまざまな電気部品、TIM 材料、フィラー ブロック、プラスチック ハンドル、吊り下げラグ アセンブリ、ラベル、接着剤、コネクタ、ケーブル、およびプリント回路基板 (PCB) は、冷却剤と互換性がある必要があります。
- SI特性(シグナルインテグリティ)
浸漬液冷スイッチは液体と直接接触するため、SI(シグナルインテグリティ)は液体の影響を受けます。 そのため、PCB ボードには次のような特別な要件があります。
(1) キーモデルの表面実装は極力避けてください。
(2) 内部信号に影響を与えず、低速信号はあまり気にせずに面実装。
(3) インピーダンス設計を改善するために、高速信号を表面実装する必要があります。
(4) BGA とコネクタをファンアウトして、表面のラインの長さを最小限に抑えます。
(5) 25G および 50G SerDes の損失設計およびインピーダンス設計は、従来のものとは異なります。
コールドプレート液冷スイッチの研究開発実績
Ruijie Network は、シリコン フォトニクス技術の特殊な特性に基づいて、コールド プレート液冷スイッチを開発しました。 その中で、OBO 技術と NPO 技術は、光学モジュールをマザーボード上の MAC チップに可能な限り近づけてパッケージ化することです。 しかし、これでは熱源が集中しすぎてしまい、予想される 1RU の高密度フォームの設計要件によって装置の高さが制限されるため、従来の空冷ヒートシンクでは問題を解決することは困難です。 液浸液冷却を使用する場合、光リンクのシーリングが非常に難しくなります。
フィギュア 6. スイッチ構造の進化
この点で、Ruijie はコールド プレート液体冷却ヒートシンクを採用して、MAC チップと周囲の光モジュールを一体的に覆い、プレート内の流路内の冷却液体の流れを通じて熱を運び去ります。 さらに、液体パイプラインの複雑さと漏れのリスクを最小限に抑えるために、デバイスの他の加熱コンポーネントはファンで冷却されます。 コールド プレート冷却ソリューションは、一石二鳥です。 NPO/CPO の高出力および高密度熱源の熱放散要件を満たすだけでなく、デバイスの高さを非常に薄い 1RU に減らすこともできます。
液冷スイッチにおけるRuijieの研究開発成果
2019 年、Ruijie Network は国内のインターネット顧客と協力して、浸漬液冷 32*100Gbps データセンター スイッチと対応するギガビット ネットワーク管理スイッチを提供しました。 2022 年、Ruijie Network は 100/200/400G 液浸液冷スイッチとコールド プレート液冷スイッチの販売を開始しました。
Ruijie Network は、32 ポート 100G データセンター アクセス スイッチと 48 ポート 1G 管理ネットワーク スイッチの 21 つの商用液浸液冷スイッチを発売しました。 どちらのスイッチも 3 インチ幅で、40M FC-1 クーラントと互換性があります。 電源は 1+XNUMX の冗長性をサポートします。 プラグ可能な ABS+PC モジュールは、クーラントのコストを大幅に節約します。 モジュールの溝は、熱放散のために液体の流れを促進し、浮力と重力のバランスを巧みに調整します。
Ruijie Networkは、2021年64月のグローバルOCPサミットで、データセンターやキャリアネットワークの高信頼性要件を満たす400*XNUMXGコールドプレート液冷NPOスイッチを正式にリリースしました。
OIF のリーダーシップの下、Ruijie Network は業界の多くのメーカーと協力して、64 年の OFC サミットで 800*2022G コールド プレート液冷 NPO スイッチ構造プロトタイプをリリースしました。 フロント パネルは 64 個の 800G ファイバ コネクタをサポートし、それぞれを 400 つの 16G ポートに分割して上位互換性を確保することもできます。 外部レーザー光源モジュールの数は XNUMX に増えました。ブラインドメイト設計により、高出力レーザーによる人間の目への損傷が回避され、操作および保守担当者の安全が大幅に保証されます。 スイッチ チップと NPO モジュールは、効率的な熱放散のためにコールド プレート冷却をサポートしており、これにより、非常に集中した熱流束の問題が解決されます。 従来のプラグ可能な光モジュールと空冷ソリューションを備えたスイッチのパフォーマンスと比較して、消費電力は大幅に削減されます。