شبكات توسيع نطاق GPU المستندة إلى Ethernet

وقد أدى الإطلاق الأخير لـ Gaudi-3 من Intel، والذي يستخدم RoCE للتوصيل البيني الموسع، إلى جانب مناقشات Jim Keller حول استبدال NVLink بشبكة Ethernet، إلى لفت الانتباه إلى هذا النهج المبتكر. والجدير بالذكر أن Tenstorrent، حيث يشارك جيم كيلر، قام بذكاء بتنفيذ التوصيل البيني للشبكة بين الشرائح باستخدام Ethernet. لذلك، من المهم معالجة التحديات والمتطلبات الخاصة بشبكة Ethernet لتحل محل NVLink.

إن استبدال NVLink بـ Ethernet ليس مجرد مسألة اعتماد بروتوكول نقل جديد؛ فهو يتطلب سلسلة من التعديلات على بنية GPU. في الأساس، تعادل المشكلة معرفة كيفية تعليق ذاكرة النطاق الترددي العالي (HBM) على شبكة إيثرنت وتحقيق توسيع النطاق وسلسلة من تحسينات الاتصال لتلبية المتطلبات الحسابية، مثل الحوسبة داخل الشبكة المتمثلة في SHARP. على الصعيد العالمي، لا يوجد سوى عدد قليل من الأفراد القادرين على معالجة هذه المشكلة متعددة الأوجه، ومن الواضح أن UltraEthernet لم تستوعب المفهوم بالكامل.

للمضي قدمًا، لا بد من معالجة الأسئلة الرئيسية التالية:

  • حدود زمن الوصول: ما هي حدود زمن الوصول المقبولة؟ إن زمن الوصول للارتباط الناتج عن الإنتاجية العالية والسرعة العالية لـ SerDes FEC والاتصال البيني الذي يتجاوز نطاق عشرات الآلاف من البطاقات أمر لا مفر منه. لا يمكن حل هذه المشكلات ببساطة عن طريق تعديل بروتوكول الحزمة أو إدخال HPC-Ethernet.
  • دلالات الإرسال: ما هي دلالات الإرسال؟ عادةً ما يفهم محترفو الشبكات عمليات الإرسال/الاستقبال الأساسية. على سبيل المثال، يعد تعريف UEC للتسليم غير المنظم الموثوق به للعمليات غير الفعالة (RUDI) بمثابة خطأ فني. وفي حين أنها تفي بالقوانين التبادلية والعاطلة، فإنها تفشل في معالجة كيفية تنفيذ عمليات معينة، مثل عجز إضافة الاختزال. علاوة على ذلك، فإن التحسينات المستندة إلى القانون الترابطي، والتي لا يتم دعمها للوصول إلى الذاكرة الدقيقة على NVLink، ضرورية أيضًا. وعلى نطاق أوسع، يجب أن تتطور الدلالات إلى دلالات شبه شبكية.
  • تجميع ذاكرة أكبر على NVLink: كيف يمكن معالجة تجميع ذاكرة أكبر على NVLink؟ يتضمن هذا حل التنازلات بين الوقت والمساحة لمشغلي Compute Bound في المشكلات الحسابية، مثل KV Cache.
  • التوجيه الديناميكي والتحكم في الازدحام: لا تمثل القدرة على التوجيه الديناميكي والتحكم في الازدحام في شبكة غير متقاربة 1:1 غير متقاربة مشكلة كبيرة بالنسبة للمجموعات التي تحتوي على عشرات الآلاف من البطاقات من خلال الضبط المضمن. ومع ذلك، بالنسبة للمجموعات التي يتراوح حجمها بين مئات الآلاف إلى ملايين البطاقات، والتي قد تتطلب حتى RDMA للإرسال لمسافات طويلة، لم يتمكن أي بائع تجاري من حل هذه المشكلات حتى الآن.

نظرة عامة على حلول الربط البيني ScaleUP الحالية

إنتل غاودي3

وفقًا للورقة البيضاء لـ Gaudi3، تم تصميم قالب Gaudi على النحو التالي: يشتمل على 24 رابط RoCE بسرعة 200 جيجابت في الثانية، 21 منها تستخدم لـ FullMesh الداخلي وثلاثة للاتصالات الخارجية.

يموت غاودي

تم حساب طوبولوجيا الشبكات واسعة النطاق للغاية، ويعادل عرض النطاق الترددي لمفتاح Leaf محول 25.6T.

طوبولوجيا الشبكات واسعة النطاق

التحكم في الازدحام

تنص الوثيقة التقنية لشركة Intel على أنه بدلاً من استخدام PFC، يتم استخدام آلية ACK انتقائية. بالإضافة إلى ذلك، يتم استخدام خوارزمية SWIFT للتحكم في الازدحام (CC) لتجنب استخدام ECN. يعد هذا في الأساس إعادة استخدام لمحرك النقل الموثوق التابع لشركة Google Falcon على وحدة IPU التابعة لشركة Intel.

تعدد المسارات والحد من داخل الشبكة

تدعي شركة Intel أنها تدعم تقنية رش الحزم، لكن ليس من الواضح أي محول خاص بالشركة يتم استخدامه؛ ومن المؤكد أنها ليست توفينو الخاصة بهم. ولذلك، يجب أن يكون من برودكوم. علاوة على ذلك، يدعم نظام In-Network Reduction FP8/BF16 وما إلى ذلك، حيث يدعم المشغلون فقط Sum/Min/Max. ومن خلال دمجها مع مجموعات عمل UEC المعنية بالحوسبة داخل الشبكة (INC)، تصبح الصورة أكثر وضوحًا.

مايكروسوفت مايا100

تتوفر معلومات محدودة، ولكن يوجد نطاق ترددي لشريحة واحدة يبلغ 4800 جيجابت في الثانية. يحتوي هيكل الخادم الواحد على أربع بطاقات Maia100 وخزانة كاملة بها ثمانية خوادم تشكل مجموعة مكونة من 32 بطاقة.

مايكروسوفت مايا100

وبفحص المحولات الموسعة وكابلات التوصيل البيني، توجد ثلاثة محولات، يحتوي كل خادم على 24 واجهة شبكة بسرعة 400 جيجابت في الثانية. توجد اتصالات استرجاع بين المنافذ (المشار إليها باللون الأسود في الرسم التخطيطي) وخطوط التوصيل البيني الخارجية (المشار إليها باللون الأرجواني).

كابلات الربط

يشير هذا إلى طوبولوجيا تشكل ترابطًا على شكل فم داخل اللوحة الأم، مما يؤدي إلى إنشاء حلقة في الاتجاه X والاتصال بثلاثة مفاتيح في ثلاث مستويات في الاتجاه Y.

طوبولوجيا تشكل ترابطًا على شكل فم داخل اللوحة الأم

تقوم الوصلات الصاعدة للمفاتيح بإجراء اتصالات متدرجة بين الخزانات، حيث تحتوي كل طائرة في كل خزانة على إجمالي 32 400غ واجهات. بإضافة تقارب 1:1، يرتبط محول الوصلة الصاعدة معًا لتكوين محول 25.6T، مما يجعل التوسع متعدد الطبقات ممكنًا من الناحية النظرية. يمثل هذا دمجًا لشبكات Scale-Up وScale-Out. أما بالنسبة للبروتوكول، فإن عملية RoCE البسيطة من نقطة إلى نقطة لا ينبغي أن تشكل مشكلة لـ Torus Ring. ومع ذلك، ستكون هناك حاجة إلى إمكانيات تعدد المسارات عند التوصيل البيني بمحولات توسيع النطاق.

الجانب السلبي هو احتمال الكمون العالي. ومع ذلك، بالنسبة للشرائح المخصصة التي لا تتبع نموذج SIMT مثل CUDA ولكنها بدلاً من ذلك تستخدم نهج المصفوفة الانقباضية، فإن زمن الوصول لا يمثل مشكلة كبيرة. بالإضافة إلى ذلك، مع وجود أربع مجموعات Torus فقط، يكون تأثير زمن الوصول للاتصالات الجماعية في حده الأدنى. أنا شخصياً أعتقد أن هذه الرقائق تُستخدم على الأرجح في المقام الأول للاستدلال، حيث يقوم مقدمو خدمات الاتصالات عادةً بتطوير شريحة استدلال قبل تدريب الرقائق. لدى مقدمي خدمات الاتصالات الآخرين أيضًا تمييز واضح بين التدريب والاستدلال، مثل AWS Trainium/Inferentia وV5p/V5e من Google.

جوجل تبو

إن وصلة Google TPU مفهومة جيدًا، وتتميز بطوبولوجيا Torus Ring ومفاتيح بصرية لتبديل الارتباط.

متصل بـ 48 oc
النظام المادي

يخدم تبديل الدوائر الضوئية (OCS) غرضين: التقسيم الديناميكي وفقًا لحجم المبيعات، وتحسين عرض النطاق الترددي المقسم للاتصالات الشاملة مثل وزارة التربية والتعليم.

الاتصالات الشاملة

على سبيل المثال، تدعم شريحة TPUv5p واحدة اتصال Inter-Chip Interconnect (ICI) بسرعة 4800 جيجابت في الثانية مع طوبولوجيا 3D-Torus. يمكن تقسيم مجموعة مكونة من 8960 وحدة من وحدات TPUv5p ديناميكيًا بواسطة OCS لبيع مقاييس مختلفة، مع الحد الأقصى للتكوين القابل للبيع وهو 6144 وحدة لتشكل 3D-Torus.

التسامح مع الخطأ

يعد التسامح مع الخطأ أحد الاعتبارات المهمة لطوبولوجيا Torus ثلاثية الأبعاد.

بالإضافة إلى ذلك، تدعم Google توسيع حجرتين من خلال شبكة مركز البيانات لبناء تدريب متعدد الشرائح، مع توازي البيانات المتوازية (DP) بين البودات.

مقياس خطي

تدريب AWS

هندسة الترينيوم

تتكون بنية AWS Trainium من 16 شريحة تشكل مجموعة صغيرة مترابطة في بنية Torus Ring ثنائية الأبعاد.

رقائق 16

تسلا دوجو

قامت Tesla Dojo بتطوير بروتوكول Tesla Transport الخاص بها لتوحيد Wafer/NOC وامتدادات Ethernet الخارجية.

بروتوكول نقل تسلا

باستخدام نظام TSMC's System-on-Wafer، يتم تغليف 25 وحدة حسابية D1 على رقاقة واحدة، مترابطة في شبكة شبكية 5×5 ثنائية الأبعاد، حيث تشكل كل رقاقة شريحة تحتوي على 2 قالب إدخال/إخراج.

التوسع المدعم بالتكنولوجيا

ترتبط البلاطات بمعدل 9 تيرابايت/ثانية.

ترتبط البلاطات بمعدل 9 تيرابايت

يمكن أن يتجاوز توجيه الشبكة على الشريحة مراكز D1 أو البلاطات الفاشلة.

يمكن أن يتجاوز توجيه الشبكة على الشريحة مراكز D1 أو البلاطات الفاشلة.

بالنسبة لـ Scale-Out Ethernet، توجد بطاقة معالج واجهة Dojo (DIP)، حيث يحتوي كل محرك حساب D1 على SRAM خاص به، وذاكرة أخرى موضوعة على بطاقة DIP المجهزة بـ HBM.

معالج واجهة V1 دوجو

يتم توصيل كل بطاقة شبكة بوحدة الإدخال/الإخراج الخاصة بـ Dojo عبر ناقل خاص بسرعة 900 جيجابايت/ثانية، وهو بروتوكول نقل تيسلا (TTP)، المتوافق مع 800GB عرض النطاق الترددي HBM، مع قدرة كل قالب إدخال/إخراج على الاتصال بخمس بطاقات DIP.

طوبولوجيا PCle

نظرًا للاتصالات الداخلية للشبكة ثنائية الأبعاد، يعد الاتصال لمسافات طويلة مكلفًا، لذلك تم تنفيذ تصميمات توجيه خاصة.

شبكة نظام دوجو

يوفر التوجيه مسارات متعددة على الشريحة وهو خارج الترتيب. بالنسبة للاتصالات واسعة النطاق وطويلة المسار، يؤدي الاستخدام الذكي لبطاقة واجهة Dojo إلى إنشاء ناقل Ethernet TTPoE بسرعة 400 جيجابت في الثانية كاختصار.

طوبولوجيا الطائرة z

تقوم Dojo ببناء شبكة عالية الكثافة على نطاق الرقاقة على الرقاقة من خلال System-on-Wafer، وشبكة اتصالات خاصة عالية السرعة وقصيرة المسافة بين الرقاقات بسرعة 9 تيرابايت/ثانية. تم دمج الإدخال/الإخراج والذاكرة في بطاقة DIP، مما يوفر 900 جيجابايت/ثانية لكل بطاقة متصلة بشبكة على نطاق الرقاقة، مما يشكل شبكة شبكية ثنائية الأبعاد واسعة النطاق. ومع ذلك، مع الأخذ في الاعتبار التحكم في الازدحام بسبب مسافة الاتصال الطويلة على الشبكة الموجودة على الرقاقة، فقد تم تصميم قناة هروب بسرعة 2 جيجابت في الثانية استنادًا إلى بطاقة DIP، والتي ترسل الاتصال عبر محول إيثرنت خارجي إلى رقاقة الوجهة.

تينستورينت

في تصميم التوصيل البيني من شريحة إلى شريحة في Tenstorrent، استخدم Jim Keller شبكة Ethernet، التي تتميز ببنية بسيطة. يشكل رأس التحكم Tensor + حزمة Ethernet ويمكن أن يؤدي إلى إمكانات التنفيذ المشروط، كما هو موضح أدناه:

Tensor + رأس التحكم

ربط كامل من شريحة إلى شريحة باستخدام إيثرنت

ربط كامل من شريحة إلى شريحة باستخدام إيثرنت

يدعم لغات مصدر اتصال وظيفية متعددة

يدعم لغات مصدر اتصال وظيفية متعددة

ثم هناك تقسيم الرسم البياني. يبدو أنه يمكن تقدير عدد التعليمات لكل مرحلة، ويمكن أيضًا تقدير النطاق الترددي للمشغلين الداخلين والخارجين.

قوس تينستورنت

يبدو أيضًا أن قيود التعيين النهائية للنوى واضحة ومباشرة:

القيود رسم الخرائط النهائية إلى جوهر

هيكل شبكي بسيط ثنائي الأبعاد

هيكل شبكي بسيط ثنائي الأبعاد

يمكن زيادتها إلى 40,960 مركزًا للتوصيلات البينية واسعة النطاق

يمكن زيادتها إلى 40,960 مركزًا للتوصيلات البينية واسعة النطاق

المتطلبات الفنية للتوسع

اختيار الطوبولوجيا

في اختيار هيكل الشبكة ScaleUp، يمكننا ملاحظة أن Nvidia تستخدم حاليًا بنية Fat Tree متقاربة بنسبة 1:1، بينما تستخدم الشركات الأخرى في الغالب طبولوجيا Torus Ring أو 2D Mesh. ستتطور Nvidia لاحقًا إلى DragonFly.

اليعسوب يتفوق

يمكن رؤية المنطق وراء هذا الاختيار في ورقة hammingMesh:

المنطق وراء هذا الاختيار

بالنسبة إلى Allreduce bandwidth، فإن Torus هو الأكثر فعالية من حيث التكلفة ويمكنه الوصول إلى أعلى مستويات الأداء. ومع ذلك، بالنسبة لنماذج مثل MoE التي تتطلب AlltoAll، يجب مراعاة عرض النطاق الترددي المقسم. أداء DragonFly جيد من حيث تعقيد الأسلاك وعرض النطاق الترددي العالمي وقطر الشبكة.

التوجيه الديناميكي والنقل الموثوق

بينما ينتقد الجميع أوجه القصور في RoCE، فإن الحقيقة هي أن BF3+Spectrum-4 لديه توجيه تكيفي، ولدى Broadcom DLB/GLB لتطوير رش الحزم، وهناك أيضًا تقنيات VoQ المشابهة لتقنيات Cisco. يحتوي Meta أيضًا على توجيه ثابت متعدد المسارات لهندسة المرور أو جدولة التقارب في مستوى التحكم.

ومع ذلك، لا يمكن لهذه الحلول إلا أن تحل جزءًا من المشكلات على نطاق عشرات الآلاف من البطاقات. التحدي الحقيقي يأتي عند التوسع إلى مئات الآلاف من البطاقات. كيف نعالج هذا؟

يعد حل الانفجارات خوارزميًا مهمة صعبة، والأكثر صعوبة هو أنه لا أحد يحاول فهم السبب الجذري للانفجارات. وبدلاً من ذلك، يحاولون باستمرار اختبار المخازن المؤقتة للتبديل لتخفيف الاندفاعات، بل إن بعضهم يستكشف الشبكات الحتمية وتحليل فورييه. وهذا ببساطة يفتقد النقطة.

إنها مشكلة صعبة للغاية، ويبقى أن نرى متى سيكتشفها اللاعبون الآخرون في الصناعة. جانب آخر هو فشل النظام والقياس المرن. تذكر ورقة NSDI24 من Google أسباب التجزئة.

انقطاع الآلة

إذا لم يتم أخذ هذه المشكلات في الاعتبار، فسيؤدي ذلك إلى تحديات الجدولة. يمكن أن يكون الاختيار الجيد هو تنفيذ جدول التوجيه داخل ICI، إلى جانب محولات OCS.

مفاتيح OCS
مكونات التبديل ICI

ما سبب أهمية دعم Ethernet لـ ScaleUP؟ لأن Ethernet تحتاج إلى تنفيذ طبقة توجيه هنا لدعم DragonFly وقدرات تبديل الارتباط الفاشلة.

هل الكمون مهم للارتقاء؟

جوهر هذا السؤال هو كيفية قيام وحدات معالجة الرسومات بإخفاء زمن الاستجابة، والاختلافات في زمن الاستجابة بين NVLink وRDMA. من المهم ملاحظة أن وحدات معالجة الرسومات هي بطبيعتها معالجات مُحسَّنة للإنتاجية، وإذا كانت تسعى إلى تحقيق زمن وصول منخفض، فسيشير ذلك إلى مشكلات تتعلق بتنفيذها. المشكلة الأساسية هي أن NVLink يستخدم دلالات الذاكرة، بينما يستخدم RDMA دلالات الرسائل، وهناك أيضًا تحديات في تنفيذ RDMA للحوسبة غير المتجانسة.

عيوب تنفيذ RDMA

العامل الرئيسي الذي يسبب زمن استجابة أعلى في RDMA مقارنة بـ NVLink هو وحدة المعالجة المركزية.

كيف يعمل وكيل وحدة المعالجة المركزية

تعالج Nvidia هذه المشكلة من خلال GDA-KI، مما يساعد على إخفاء العديد من فترات وصول الوصول إلى الذاكرة بشكل أكثر فعالية.

تعالج Nvidia هذا الأمر من خلال GDA-KI

الوصول إلى الذاكرة الدقيقة

هناك مشكلة أخرى وهي أن NVLink يعتمد على دلالات الذاكرة ويحتوي على عدد كبير من عمليات الوصول إلى التحميل/التخزين الدقيقة، مما يجعل كفاءة النقل وزمن الوصول أمرًا في غاية الأهمية. ولكن كيف يمكن القيام بذلك باستخدام Ethernet RDMA؟ قد يتطلب الأمر HPC Ethernet، حيث أن الحزم ستكون كبيرة جدًا.

الوصول إلى الذاكرة الدقيقة

هذه هي المشكلة التي كنت أناقشها في NetDAM - الحاجة إلى دلالات شبه شبكية لرسائل RDMA:

  • التبادلية تضمن إمكانية تقديم البيانات بطريقة غير مرتبة.
  • يحل Idempotence مشكلة الغموض الخاصة بالحزم المسقطة وعمليات إعادة الإرسال، ولكن بالنسبة لعمليات مثل التخفيض مع الآثار الجانبية، يلزم الاعتماد على المعاملات أو اختلال البيانات.
  • يساعد الترابط على تحسين كفاءة النقل للوصول إلى الذاكرة الدقيقة من خلال الجدولة.
في نتدام

بالنسبة لمتطلبات الوصول إلى الذاكرة، يكون حجم البروتوكول المضيف عادةً بحجم FLIT. لدعم هذا مع تمكين أيضًا اتصالات ScaleUP البينية واسعة النطاق، والموثوقية، ورؤوس التوجيه، ورؤوس Ethernet، والعزل متعدد المستأجرين (رؤوس VPC)، وما إلى ذلك، فإن المفتاح هو الاستفادة من الترابط. ومع ذلك، يبدو أن UEC قد فاتتها هذه النقطة تمامًا، حيث قدمت فقط الدعم للتبادلية والعجز في RUDI.

العنوان الرئيسي
ملخص TLP

الحل الذي تقدمه Nvidia هو التشفير الارتباطي، الذي يحل مشكلة الوصول الدقيقة.

مشكلة الوصول الدقيقة

من المحتمل أن يتقارب الجيل التالي من NVLink مع Infiniband، وسيتم دمج شبكتي ScaleOut وScaleUP في النهاية.

تجميع الذاكرة لـ ScaleUP

تعاني العديد من النماذج الكبيرة اليوم من السعة المحدودة لذاكرة HBM (ذاكرة النطاق الترددي العالي). بينما عالجت NVIDIA هذه المشكلة من خلال توصيل Grace وNVLink C2C لتوسيع الذاكرة، فإن المشكلة الأساسية هي أن شبكة ScaleUP تتطلب تجميع الذاكرة.

تجميع الذاكرة لـ ScaleUP

استنتاجات

  1. تحتاج أي شركة تهدف إلى تنفيذ Ethernet ScaleUP إلى النظر في التحديات الرئيسية التالية:
  2. الكمون ليس بالغ الأهمية. من خلال تعديل أنماط الوصول إلى ذاكرة وحدة معالجة الرسومات لتتوافق مع دلالات الرسالة ثم تخزين المعالجة مؤقتًا، يمكن إخفاء زمن الاستجابة.
  3. تعد إمكانيات التوجيه الديناميكي وعزل المستأجر لشبكة ScaleUP أمرًا بالغ الأهمية. هناك حاجة إلى حلول توجيه فعالة، خاصة لمعالجة مشكلات التجزئة الناتجة عن فشل الارتباط.
  4. إن دلالات RDMA (الوصول المباشر للذاكرة عن بعد) غير كاملة، وببساطة فإن نسخ SHARP (بروتوكول التجميع والاختزال الهرمي القابل للتطوير) ينطوي على العديد من المخاطر. مطلوب دلالات شبه شبكية، تدعم سلسلة من عمليات الآثار الجانبية لتحقيق العجز.
  5. هناك حاجة إلى إعادة توجيه المسارات المتعددة للنسيج والتحكم في الازدحام لتحسين الاستخدام العام للنسيج.
  6. يعد تجميع الذاكرة على نطاق واسع أمرًا ضروريًا.
استنتاجات

اترك تعليق

انتقل إلى الأعلى