رؤى رئيسية حول مجموعة GPU 100,000 من xAI التابعة لـ Musk

تم مؤخرًا إصدار مقطع فيديو ترويجي لمجموعة وحدات معالجة الرسوميات xAI 100,000 من Musk عبر الإنترنت. برعاية Supermicro، يتضمن الفيديو مقدمة من خبير أجنبي في مركز بيانات، يستغرق 15 دقيقة لمناقشة جوانب مختلفة لمجموعة وحدات معالجة الرسوميات 100,000. تتضمن هذه الجوانب كثافة النشر، وتوزيع الخزانة، وحل التبريد السائل، وطرق الصيانة، وتكوين بطاقة الشبكة، ومواصفات المحول، وإمدادات الطاقة. ومع ذلك، لم يكشف الفيديو الكثير عن تصميم الشبكة، أو نظام التخزين، أو تقدم نموذج التدريب. دعنا نستكشف الرؤى العشر الرئيسية!

أكبر مجموعة ذكاء اصطناعي في العالم

مقياس المجموعة الكبيرة

وعلى النقيض من المجموعات الأكثر شيوعًا في بلدنا، والتي تتكون عادةً من 1,000 وحدة معالجة رسومية (أي ما يعادل 128 نظامًا من أنظمة H100)، فإن مجموعة وحدات معالجة الرسوميات التي يبلغ عددها 100,000 وحدة أكبر بمقدار 100 مرة، وتتطلب ما يقرب من 12,800 نظام من أنظمة H100. ويزعم الفيديو الترويجي أن النشر اكتمل في 122 يومًا فقط، مما يُظهر تباينًا كبيرًا بين قدرات مجموعات وحدات معالجة الرسوميات المحلية والدولية.

مقياس المجموعة الكبيرة

كثافة حسابية عالية

يُظهر الفيديو أن H100 يستخدم تصميم رف 4U، حيث ينشر كل خزانة 8 أنظمة، أي ما يعادل 64 وحدة معالجة رسومية لكل خزانة. يحتوي صف من الخزانات على 8 خزانات، أي 512 وحدة معالجة رسومية لكل صف. تتألف مجموعة وحدات معالجة الرسوميات التي يبلغ عددها 100,000 وحدة معالجة رسومية من حوالي 200 صف من الخزانات. من الشائع محليًا وضع 1-2 نظام H100 لكل خزانة، حيث يستهلك كل نظام H100 10.2 كيلو وات. يتجاوز نشر 8 أنظمة 80 كيلو وات، مما يوفر مرجعًا لعمليات نشر مجموعة عالية الكثافة في المستقبل.

كثافة حسابية عالية

اعتماد واسع النطاق لتبريد السائل باللوحة الباردة

على الرغم من أن تقنية التبريد السائل تم تطويرها محليًا لسنوات عديدة، إلا أن تقديمها على نطاق واسع أمر نادر. يوضح الفيديو أن مجموعة GPU التي تحتوي على 100,000 وحدة معالجة رسومية تستخدم حل التبريد السائل السائد الحالي، والذي يغطي شرائح وحدة معالجة الرسوميات ووحدة المعالجة المركزية (بينما لا تزال المكونات الأخرى مثل الذاكرة ومحركات الأقراص الصلبة تتطلب تبريدًا بالهواء). تحتوي كل خزانة على وحدة توزيع تبريد (CDU) في الأسفل، مُهيأة بطريقة موزعة، مع مضخات زائدة لمنع انقطاع النظام بسبب الأعطال الفردية.

اعتماد التبريد السائل باللوحة الباردة على نطاق واسع

بطاقة الشبكة وحلول الشبكات – RoCE

في حين أن الفيديو لا يوضح طوبولوجيا الشبكة، فإنه يذكر أن كل جهاز H100 مزود بـ 8 بطاقات Mellanox BFD-3 (واحدة لكل وحدة معالجة رسومية وبطاقة BFD-3 المقابلة) وبطاقة شبكة CX7 400G واحدة. وهذا يختلف عن التكوينات المحلية الحالية، ولا يقدم الفيديو شرحًا لهذا الإعداد. بالإضافة إلى ذلك، يستخدم حل الشبكة RoCE بدلاً من الشبكات IB الأكثر انتشارًا محليًا، ويرجع ذلك على الأرجح إلى فعالية RoCE من حيث التكلفة ونضجها في التعامل مع مجموعات كبيرة الحجم. تظل Mellanox العلامة التجارية المفضلة للمفاتيح.

بطاقة الشبكة وحلول الشبكات - RoCE

نموذج ومواصفات المفتاح

يقدم الفيديو نموذج المحول باعتباره محول NVIDIA Spectrum-x SN5600 Ethernet، والذي يحتوي على 64 واجهة مادية بسرعة 800 جيجابت يمكن تحويلها إلى 128 واجهة بسرعة 400 جيجابت. يقلل هذا التكوين بشكل كبير من عدد المحولات المطلوبة، مما قد يصبح اتجاهًا مستقبليًا في تصميم الشبكات.

نموذج ومواصفات المفتاح

الصيانة المعيارية لخوادم وحدة معالجة الرسوميات

نحن نعلم جميعًا أن معدل فشل وحدات معالجة الرسوميات H100 أعلى بشكل ملحوظ من معدل فشل الخوادم العامة، مما يجعل الاستبدال والإصلاح أمرًا صعبًا للغاية. وقد عرض الفيديو منصة 4U H100 من Supermicro، والتي تدعم الصيانة على شكل درج لوحدات معالجة الرسوميات ووحدة المعالجة المركزية. وكما هو موضح في الصورة، يوجد مقبض يسمح بالإزالة والصيانة بسهولة دون الحاجة إلى تفكيك الخادم بالكامل، مما يعزز كفاءة الصيانة بشكل كبير.

الصيانة المعيارية لخوادم وحدة معالجة الرسوميات

أضواء مؤشر لون الخزانة

كما هو موضح في الصورة، يوفر التأثير الأزرق إحساسًا تقنيًا قويًا مع الإشارة إلى أن المعدات تعمل بشكل طبيعي. إذا واجهت الخزانة مشكلة، فإن التغيير في لون مصابيح المؤشر يسمح لموظفي الصيانة بتحديد الخزانة المعيبة بسرعة. على الرغم من أنها ليست تقنية متطورة، إلا أنها مثيرة للاهتمام وعملية للغاية.

أضواء مؤشر لون الخزانة

استمرار الحاجة إلى خوادم للأغراض العامة

في تصميم حلول مراكز الحوسبة الذكية، غالبًا ما يتجاهل الكثيرون الخوادم العامة. ورغم أن خوادم وحدة معالجة الرسوميات هي الأساس، إلا أن العديد من مهام الإدارة المساعدة لا تزال تتطلب الدعم من الخوادم العامة. وقد أظهر الفيديو خوادم 1U عالية الكثافة توفر قوة حوسبة وحدة المعالجة المركزية، وتتعايش مع عقد وحدة معالجة الرسوميات دون تعارض. تدعم عقد وحدة المعالجة المركزية بشكل أساسي أنظمة الأعمال المتعلقة بالإدارة.

استمرار الحاجة إلى خوادم للأغراض العامة

أهمية أنظمة التخزين

على الرغم من أن الفيديو لم يوضح تصميم نظام التخزين، إلا أنه استعرض بإيجاز هذه الوحدة الأساسية لمراكز الحوسبة الذكية. يعد التخزين أمرًا بالغ الأهمية لدعم تخزين البيانات في أنظمة التدريب، مما يؤثر بشكل مباشر على كفاءة التدريب. لذلك، تختار مراكز الحوسبة الذكية عادةً تخزين GPFS عالي الأداء لبناء أنظمة ملفات موزعة.

أهمية أنظمة التخزين

نظام ضمان إمدادات الطاقة

وقد عرض الفيديو حزمة بطارية كبيرة تم إعدادها خصيصًا لمجموعة وحدات معالجة الرسوميات التي يبلغ عددها 100,000 ألف وحدة. ويتصل نظام الطاقة بحزمة البطارية، التي تزود المجموعة بالطاقة، مما يخفف بشكل فعال من المخاطر المرتبطة بإمدادات الطاقة غير المستقرة. ورغم عدم الكشف عن الكثير من المعلومات، إلا أنها تؤكد على أهمية مصدر طاقة موثوق به لأنظمة مراكز الحوسبة الذكية.

نظام ضمان إمدادات الطاقة

يتبع: التوسع المستمر للمجموعة

واختتم الفيديو بالقول إن مجموعة وحدات معالجة الرسوميات التي يبلغ عددها 100,000 ألف وحدة هي مجرد مرحلة، وأن هندسة النظام لا تزال جارية.

سوف يستمر التوسع المستمر للمجموعة

اترك تعليق

انتقل إلى الأعلى