شبكات توسيع نطاق GPU المستندة إلى Ethernet

9 مايو 2024

كاثرين

مهندس اتصالات بصرية

وقد أدى الإطلاق الأخير لـ Gaudi-3 من Intel، والذي يستخدم RoCE للتوصيل البيني الموسع، إلى جانب مناقشات Jim Keller حول استبدال NVLink بشبكة Ethernet، إلى لفت الانتباه إلى هذا النهج المبتكر. والجدير بالذكر أن Tenstorrent، حيث يشارك جيم كيلر، قام بذكاء بتنفيذ التوصيل البيني للشبكة بين الشرائح باستخدام Ethernet. لذلك، من المهم معالجة التحديات والمتطلبات الخاصة بشبكة Ethernet لتحل محل NVLink.

إن استبدال NVLink بـ Ethernet ليس مجرد مسألة اعتماد بروتوكول نقل جديد؛ فهو يتطلب سلسلة من التعديلات على بنية GPU. في الأساس، تعادل المشكلة معرفة كيفية تعليق ذاكرة النطاق الترددي العالي (HBM) على شبكة إيثرنت وتحقيق توسيع النطاق وسلسلة من تحسينات الاتصال لتلبية المتطلبات الحسابية، مثل الحوسبة داخل الشبكة المتمثلة في SHARP. على الصعيد العالمي، لا يوجد سوى عدد قليل من الأفراد القادرين على معالجة هذه المشكلة متعددة الأوجه، ومن الواضح أن UltraEthernet لم تستوعب المفهوم بالكامل.

للمضي قدمًا، لا بد من معالجة الأسئلة الرئيسية التالية:

حدود زمن الوصول: ما هي حدود زمن الوصول المقبولة؟ إن زمن الوصول للارتباط الناتج عن الإنتاجية العالية والسرعة العالية لـ SerDes FEC والاتصال البيني الذي يتجاوز نطاق عشرات الآلاف من البطاقات أمر لا مفر منه. لا يمكن حل هذه المشكلات ببساطة عن طريق تعديل بروتوكول الحزمة أو إدخال HPC-Ethernet.
دلالات الإرسال: ما هي دلالات الإرسال؟ عادةً ما يفهم محترفو الشبكات عمليات الإرسال/الاستقبال الأساسية. على سبيل المثال، يعد تعريف UEC للتسليم غير المنظم الموثوق به للعمليات غير الفعالة (RUDI) بمثابة خطأ فني. وفي حين أنها تفي بالقوانين التبادلية والعاطلة، فإنها تفشل في معالجة كيفية تنفيذ عمليات معينة، مثل عجز إضافة الاختزال. علاوة على ذلك، فإن التحسينات المستندة إلى القانون الترابطي، والتي لا يتم دعمها للوصول إلى الذاكرة الدقيقة على NVLink، ضرورية أيضًا. وعلى نطاق أوسع، يجب أن تتطور الدلالات إلى دلالات شبه شبكية.
تجميع ذاكرة أكبر على NVLink: كيف يمكن معالجة تجميع ذاكرة أكبر على NVLink؟ يتضمن هذا حل التنازلات بين الوقت والمساحة لمشغلي Compute Bound في المشكلات الحسابية، مثل KV Cache.
التوجيه الديناميكي والتحكم في الازدحام: لا تمثل القدرة على التوجيه الديناميكي والتحكم في الازدحام في شبكة غير متقاربة 1:1 غير متقاربة مشكلة كبيرة بالنسبة للمجموعات التي تحتوي على عشرات الآلاف من البطاقات من خلال الضبط المضمن. ومع ذلك، بالنسبة للمجموعات التي يتراوح حجمها بين مئات الآلاف إلى ملايين البطاقات، والتي قد تتطلب حتى RDMA للإرسال لمسافات طويلة، لم يتمكن أي بائع تجاري من حل هذه المشكلات حتى الآن.

جدول المحتويات

نظرة عامة على حلول الربط البيني ScaleUP الحالية

إنتل غاودي3

وفقًا للورقة البيضاء لـ Gaudi3، تم تصميم قالب Gaudi على النحو التالي: يشتمل على 24 رابط RoCE بسرعة 200 جيجابت في الثانية، 21 منها تستخدم لـ FullMesh الداخلي وثلاثة للاتصالات الخارجية.

تم حساب طوبولوجيا الشبكات واسعة النطاق للغاية، ويعادل عرض النطاق الترددي لمفتاح Leaf محول 25.6T.

The topology for ultra-large-scale networking

التحكم في الازدحام

تنص الوثيقة التقنية لشركة Intel على أنه بدلاً من استخدام PFC، يتم استخدام آلية ACK انتقائية. بالإضافة إلى ذلك، يتم استخدام خوارزمية SWIFT للتحكم في الازدحام (CC) لتجنب استخدام ECN. يعد هذا في الأساس إعادة استخدام لمحرك النقل الموثوق التابع لشركة Google Falcon على وحدة IPU التابعة لشركة Intel.

تعدد المسارات والحد من داخل الشبكة

تدعي شركة Intel أنها تدعم تقنية رش الحزم، لكن ليس من الواضح أي محول خاص بالشركة يتم استخدامه؛ ومن المؤكد أنها ليست توفينو الخاصة بهم. ولذلك، يجب أن يكون من برودكوم. علاوة على ذلك، يدعم نظام In-Network Reduction FP8/BF16 وما إلى ذلك، حيث يدعم المشغلون فقط Sum/Min/Max. ومن خلال دمجها مع مجموعات عمل UEC المعنية بالحوسبة داخل الشبكة (INC)، تصبح الصورة أكثر وضوحًا.

مايكروسوفت مايا100

تتوفر معلومات محدودة، ولكن يوجد نطاق ترددي لشريحة واحدة يبلغ 4800 جيجابت في الثانية. يحتوي هيكل الخادم الواحد على أربع بطاقات Maia100 وخزانة كاملة بها ثمانية خوادم تشكل مجموعة مكونة من 32 بطاقة.

وبفحص المحولات الموسعة وكابلات التوصيل البيني، توجد ثلاثة محولات، يحتوي كل خادم على 24 واجهة شبكة بسرعة 400 جيجابت في الثانية. توجد اتصالات استرجاع بين المنافذ (المشار إليها باللون الأسود في الرسم التخطيطي) وخطوط التوصيل البيني الخارجية (المشار إليها باللون الأرجواني).

يشير هذا إلى طوبولوجيا تشكل ترابطًا على شكل فم داخل اللوحة الأم، مما يؤدي إلى إنشاء حلقة في الاتجاه X والاتصال بثلاثة مفاتيح في ثلاث مستويات في الاتجاه Y.

a topology that forms a mouth-shaped interconnection within the motherboard

تقوم الوصلات الصاعدة للمفاتيح بإجراء اتصالات متدرجة بين الخزانات، حيث تحتوي كل طائرة في كل خزانة على إجمالي 32 400غ واجهات. بإضافة تقارب 1:1، يرتبط محول الوصلة الصاعدة معًا لتكوين محول 25.6T، مما يجعل التوسع متعدد الطبقات ممكنًا من الناحية النظرية. يمثل هذا دمجًا لشبكات Scale-Up وScale-Out. أما بالنسبة للبروتوكول، فإن عملية RoCE البسيطة من نقطة إلى نقطة لا ينبغي أن تشكل مشكلة لـ Torus Ring. ومع ذلك، ستكون هناك حاجة إلى إمكانيات تعدد المسارات عند التوصيل البيني بمحولات توسيع النطاق.

الجانب السلبي هو احتمال الكمون العالي. ومع ذلك، بالنسبة للشرائح المخصصة التي لا تتبع نموذج SIMT مثل CUDA ولكنها بدلاً من ذلك تستخدم نهج المصفوفة الانقباضية، فإن زمن الوصول لا يمثل مشكلة كبيرة. بالإضافة إلى ذلك، مع وجود أربع مجموعات Torus فقط، يكون تأثير زمن الوصول للاتصالات الجماعية في حده الأدنى. أنا شخصياً أعتقد أن هذه الرقائق تُستخدم على الأرجح في المقام الأول للاستدلال، حيث يقوم مقدمو خدمات الاتصالات عادةً بتطوير شريحة استدلال قبل تدريب الرقائق. لدى مقدمي خدمات الاتصالات الآخرين أيضًا تمييز واضح بين التدريب والاستدلال، مثل AWS Trainium/Inferentia وV5p/V5e من Google.

جوجل تبو

إن وصلة Google TPU مفهومة جيدًا، وتتميز بطوبولوجيا Torus Ring ومفاتيح بصرية لتبديل الارتباط.

يخدم تبديل الدوائر الضوئية (OCS) غرضين: التقسيم الديناميكي وفقًا لحجم المبيعات، وتحسين عرض النطاق الترددي المقسم للاتصالات الشاملة مثل وزارة التربية والتعليم.

على سبيل المثال، تدعم شريحة TPUv5p واحدة اتصال Inter-Chip Interconnect (ICI) بسرعة 4800 جيجابت في الثانية مع طوبولوجيا 3D-Torus. يمكن تقسيم مجموعة مكونة من 8960 وحدة من وحدات TPUv5p ديناميكيًا بواسطة OCS لبيع مقاييس مختلفة، مع الحد الأقصى للتكوين القابل للبيع وهو 6144 وحدة لتشكل 3D-Torus.

يعد التسامح مع الخطأ أحد الاعتبارات المهمة لطوبولوجيا Torus ثلاثية الأبعاد.

بالإضافة إلى ذلك، تدعم Google توسيع حجرتين من خلال شبكة مركز البيانات لبناء تدريب متعدد الشرائح، مع توازي البيانات المتوازية (DP) بين البودات.

تدريب AWS

تتكون بنية AWS Trainium من 16 شريحة تشكل مجموعة صغيرة مترابطة في بنية Torus Ring ثنائية الأبعاد.

تسلا دوجو

قامت Tesla Dojo بتطوير بروتوكول Tesla Transport الخاص بها لتوحيد Wafer/NOC وامتدادات Ethernet الخارجية.

باستخدام نظام TSMC's System-on-Wafer، يتم تغليف 25 وحدة حسابية D1 على رقاقة واحدة، مترابطة في شبكة شبكية 5×5 ثنائية الأبعاد، حيث تشكل كل رقاقة شريحة تحتوي على 2 قالب إدخال/إخراج.

ترتبط البلاطات بمعدل 9 تيرابايت/ثانية.

يمكن أن يتجاوز توجيه الشبكة على الشريحة مراكز D1 أو البلاطات الفاشلة.

بالنسبة لـ Scale-Out Ethernet، توجد بطاقة معالج واجهة Dojo (DIP)، حيث يحتوي كل محرك حساب D1 على SRAM خاص به، وذاكرة أخرى موضوعة على بطاقة DIP المجهزة بـ HBM.

يتم توصيل كل بطاقة شبكة بوحدة الإدخال/الإخراج الخاصة بـ Dojo عبر ناقل خاص بسرعة 900 جيجابايت/ثانية، وهو بروتوكول نقل تيسلا (TTP)، المتوافق مع 800GB عرض النطاق الترددي HBM، مع قدرة كل قالب إدخال/إخراج على الاتصال بخمس بطاقات DIP.

نظرًا للاتصالات الداخلية للشبكة ثنائية الأبعاد، يعد الاتصال لمسافات طويلة مكلفًا، لذلك تم تنفيذ تصميمات توجيه خاصة.

يوفر التوجيه مسارات متعددة على الشريحة وهو خارج الترتيب. بالنسبة للاتصالات واسعة النطاق وطويلة المسار، يؤدي الاستخدام الذكي لبطاقة واجهة Dojo إلى إنشاء ناقل Ethernet TTPoE بسرعة 400 جيجابت في الثانية كاختصار.

تقوم Dojo ببناء شبكة عالية الكثافة على نطاق الرقاقة على الرقاقة من خلال System-on-Wafer، وشبكة اتصالات خاصة عالية السرعة وقصيرة المسافة بين الرقاقات بسرعة 9 تيرابايت/ثانية. تم دمج الإدخال/الإخراج والذاكرة في بطاقة DIP، مما يوفر 900 جيجابايت/ثانية لكل بطاقة متصلة بشبكة على نطاق الرقاقة، مما يشكل شبكة شبكية ثنائية الأبعاد واسعة النطاق. ومع ذلك، مع الأخذ في الاعتبار التحكم في الازدحام بسبب مسافة الاتصال الطويلة على الشبكة الموجودة على الرقاقة، فقد تم تصميم قناة هروب بسرعة 2 جيجابت في الثانية استنادًا إلى بطاقة DIP، والتي ترسل الاتصال عبر محول إيثرنت خارجي إلى رقاقة الوجهة.

تينستورينت

في تصميم التوصيل البيني من شريحة إلى شريحة في Tenstorrent، استخدم Jim Keller شبكة Ethernet، التي تتميز ببنية بسيطة. يشكل رأس التحكم Tensor + حزمة Ethernet ويمكن أن يؤدي إلى إمكانات التنفيذ المشروط، كما هو موضح أدناه:

ربط كامل من شريحة إلى شريحة باستخدام إيثرنت

Full chip-to-chip interconnect using Ethernet

يدعم لغات مصدر اتصال وظيفية متعددة

Supports multiple functional communication source languages

ثم هناك تقسيم الرسم البياني. يبدو أنه يمكن تقدير عدد التعليمات لكل مرحلة، ويمكن أيضًا تقدير النطاق الترددي للمشغلين الداخلين والخارجين.

يبدو أيضًا أن قيود التعيين النهائية للنوى واضحة ومباشرة:

The final mapping constraints to the core

هيكل شبكي بسيط ثنائي الأبعاد

يمكن زيادتها إلى 40,960 مركزًا للتوصيلات البينية واسعة النطاق

Can be scaled up to 40,960 cores for large-scale interconnects

المتطلبات الفنية للتوسع

اختيار الطوبولوجيا

في اختيار هيكل الشبكة ScaleUp، يمكننا ملاحظة أن Nvidia تستخدم حاليًا بنية Fat Tree متقاربة بنسبة 1:1، بينما تستخدم الشركات الأخرى في الغالب طبولوجيا Torus Ring أو 2D Mesh. ستتطور Nvidia لاحقًا إلى DragonFly.

يمكن رؤية المنطق وراء هذا الاختيار في ورقة hammingMesh:

بالنسبة إلى Allreduce bandwidth، فإن Torus هو الأكثر فعالية من حيث التكلفة ويمكنه الوصول إلى أعلى مستويات الأداء. ومع ذلك، بالنسبة لنماذج مثل MoE التي تتطلب AlltoAll، يجب مراعاة عرض النطاق الترددي المقسم. أداء DragonFly جيد من حيث تعقيد الأسلاك وعرض النطاق الترددي العالمي وقطر الشبكة.

التوجيه الديناميكي والنقل الموثوق

بينما ينتقد الجميع أوجه القصور في RoCE، فإن الحقيقة هي أن BF3+Spectrum-4 لديه توجيه تكيفي، ولدى Broadcom DLB/GLB لتطوير رش الحزم، وهناك أيضًا تقنيات VoQ المشابهة لتقنيات Cisco. يحتوي Meta أيضًا على توجيه ثابت متعدد المسارات لهندسة المرور أو جدولة التقارب في مستوى التحكم.

ومع ذلك، لا يمكن لهذه الحلول إلا أن تحل جزءًا من المشكلات على نطاق عشرات الآلاف من البطاقات. التحدي الحقيقي يأتي عند التوسع إلى مئات الآلاف من البطاقات. كيف نعالج هذا؟

يعد حل الانفجارات خوارزميًا مهمة صعبة، والأكثر صعوبة هو أنه لا أحد يحاول فهم السبب الجذري للانفجارات. وبدلاً من ذلك، يحاولون باستمرار اختبار المخازن المؤقتة للتبديل لتخفيف الاندفاعات، بل إن بعضهم يستكشف الشبكات الحتمية وتحليل فورييه. وهذا ببساطة يفتقد النقطة.

إنها مشكلة صعبة للغاية، ويبقى أن نرى متى سيكتشفها اللاعبون الآخرون في الصناعة. جانب آخر هو فشل النظام والقياس المرن. تذكر ورقة NSDI24 من Google أسباب التجزئة.

إذا لم يتم أخذ هذه المشكلات في الاعتبار، فسيؤدي ذلك إلى تحديات الجدولة. يمكن أن يكون الاختيار الجيد هو تنفيذ جدول التوجيه داخل ICI، إلى جانب محولات OCS.

ما سبب أهمية دعم Ethernet لـ ScaleUP؟ لأن Ethernet تحتاج إلى تنفيذ طبقة توجيه هنا لدعم DragonFly وقدرات تبديل الارتباط الفاشلة.

هل الكمون مهم للارتقاء؟

جوهر هذا السؤال هو كيفية قيام وحدات معالجة الرسومات بإخفاء زمن الاستجابة، والاختلافات في زمن الاستجابة بين NVLink وRDMA. من المهم ملاحظة أن وحدات معالجة الرسومات هي بطبيعتها معالجات مُحسَّنة للإنتاجية، وإذا كانت تسعى إلى تحقيق زمن وصول منخفض، فسيشير ذلك إلى مشكلات تتعلق بتنفيذها. المشكلة الأساسية هي أن NVLink يستخدم دلالات الذاكرة، بينما يستخدم RDMA دلالات الرسائل، وهناك أيضًا تحديات في تنفيذ RDMA للحوسبة غير المتجانسة.

عيوب تنفيذ RDMA

العامل الرئيسي الذي يسبب زمن استجابة أعلى في RDMA مقارنة بـ NVLink هو وحدة المعالجة المركزية.

تعالج Nvidia هذه المشكلة من خلال GDA-KI، مما يساعد على إخفاء العديد من فترات وصول الوصول إلى الذاكرة بشكل أكثر فعالية.

Nvidia is addressing this through GDA-KI

الوصول إلى الذاكرة الدقيقة

هناك مشكلة أخرى وهي أن NVLink يعتمد على دلالات الذاكرة ويحتوي على عدد كبير من عمليات الوصول إلى التحميل/التخزين الدقيقة، مما يجعل كفاءة النقل وزمن الوصول أمرًا في غاية الأهمية. ولكن كيف يمكن القيام بذلك باستخدام Ethernet RDMA؟ قد يتطلب الأمر HPC Ethernet، حيث أن الحزم ستكون كبيرة جدًا.

هذه هي المشكلة التي كنت أناقشها في NetDAM - الحاجة إلى دلالات شبه شبكية لرسائل RDMA:

التبادلية تضمن إمكانية تقديم البيانات بطريقة غير مرتبة.
يحل Idempotence مشكلة الغموض الخاصة بالحزم المسقطة وعمليات إعادة الإرسال، ولكن بالنسبة لعمليات مثل التخفيض مع الآثار الجانبية، يلزم الاعتماد على المعاملات أو اختلال البيانات.
يساعد الترابط على تحسين كفاءة النقل للوصول إلى الذاكرة الدقيقة من خلال الجدولة.

بالنسبة لمتطلبات الوصول إلى الذاكرة، يكون حجم البروتوكول المضيف عادةً بحجم FLIT. لدعم هذا مع تمكين أيضًا اتصالات ScaleUP البينية واسعة النطاق، والموثوقية، ورؤوس التوجيه، ورؤوس Ethernet، والعزل متعدد المستأجرين (رؤوس VPC)، وما إلى ذلك، فإن المفتاح هو الاستفادة من الترابط. ومع ذلك، يبدو أن UEC قد فاتتها هذه النقطة تمامًا، حيث قدمت فقط الدعم للتبادلية والعجز في RUDI.

الحل الذي تقدمه Nvidia هو التشفير الارتباطي، الذي يحل مشكلة الوصول الدقيقة.

من المحتمل أن يتقارب الجيل التالي من NVLink مع Infiniband، وسيتم دمج شبكتي ScaleOut وScaleUP في النهاية.

تجميع الذاكرة لـ ScaleUP

تعاني العديد من النماذج الكبيرة اليوم من السعة المحدودة لذاكرة HBM (ذاكرة النطاق الترددي العالي). بينما عالجت NVIDIA هذه المشكلة من خلال توصيل Grace وNVLink C2C لتوسيع الذاكرة، فإن المشكلة الأساسية هي أن شبكة ScaleUP تتطلب تجميع الذاكرة.

استنتاجات

تحتاج أي شركة تهدف إلى تنفيذ Ethernet ScaleUP إلى النظر في التحديات الرئيسية التالية:
الكمون ليس بالغ الأهمية. من خلال تعديل أنماط الوصول إلى ذاكرة وحدة معالجة الرسومات لتتوافق مع دلالات الرسالة ثم تخزين المعالجة مؤقتًا، يمكن إخفاء زمن الاستجابة.
تعد إمكانيات التوجيه الديناميكي وعزل المستأجر لشبكة ScaleUP أمرًا بالغ الأهمية. هناك حاجة إلى حلول توجيه فعالة، خاصة لمعالجة مشكلات التجزئة الناتجة عن فشل الارتباط.
إن دلالات RDMA (الوصول المباشر للذاكرة عن بعد) غير كاملة، وببساطة فإن نسخ SHARP (بروتوكول التجميع والاختزال الهرمي القابل للتطوير) ينطوي على العديد من المخاطر. مطلوب دلالات شبه شبكية، تدعم سلسلة من عمليات الآثار الجانبية لتحقيق العجز.
هناك حاجة إلى إعادة توجيه المسارات المتعددة للنسيج والتحكم في الازدحام لتحسين الاستخدام العام للنسيج.
يعد تجميع الذاكرة على نطاق واسع أمرًا ضروريًا.