تم مؤخرًا إصدار مقطع فيديو ترويجي لمجموعة وحدات معالجة الرسوميات xAI 100,000 من Musk عبر الإنترنت. برعاية Supermicro، يتضمن الفيديو مقدمة من خبير أجنبي في مركز بيانات، يستغرق 15 دقيقة لمناقشة جوانب مختلفة لمجموعة وحدات معالجة الرسوميات 100,000. تتضمن هذه الجوانب كثافة النشر، وتوزيع الخزانة، وحل التبريد السائل، وطرق الصيانة، وتكوين بطاقة الشبكة، ومواصفات المحول، وإمدادات الطاقة. ومع ذلك، لم يكشف الفيديو الكثير عن تصميم الشبكة، أو نظام التخزين، أو تقدم نموذج التدريب. دعنا نستكشف الرؤى العشر الرئيسية!

مقياس المجموعة الكبيرة
وعلى النقيض من المجموعات الأكثر شيوعًا في بلدنا، والتي تتكون عادةً من 1,000 وحدة معالجة رسومية (أي ما يعادل 128 نظامًا من أنظمة H100)، فإن مجموعة وحدات معالجة الرسوميات التي يبلغ عددها 100,000 وحدة أكبر بمقدار 100 مرة، وتتطلب ما يقرب من 12,800 نظام من أنظمة H100. ويزعم الفيديو الترويجي أن النشر اكتمل في 122 يومًا فقط، مما يُظهر تباينًا كبيرًا بين قدرات مجموعات وحدات معالجة الرسوميات المحلية والدولية.

كثافة حسابية عالية
يُظهر الفيديو أن H100 يستخدم تصميم رف 4U، حيث ينشر كل خزانة 8 أنظمة، أي ما يعادل 64 وحدة معالجة رسومية لكل خزانة. يحتوي صف من الخزانات على 8 خزانات، أي 512 وحدة معالجة رسومية لكل صف. تتألف مجموعة وحدات معالجة الرسوميات التي يبلغ عددها 100,000 وحدة معالجة رسومية من حوالي 200 صف من الخزانات. من الشائع محليًا وضع 1-2 نظام H100 لكل خزانة، حيث يستهلك كل نظام H100 10.2 كيلو وات. يتجاوز نشر 8 أنظمة 80 كيلو وات، مما يوفر مرجعًا لعمليات نشر مجموعة عالية الكثافة في المستقبل.

اعتماد واسع النطاق لتبريد السائل باللوحة الباردة
على الرغم من أن تقنية التبريد السائل تم تطويرها محليًا لسنوات عديدة، إلا أن تقديمها على نطاق واسع أمر نادر. يوضح الفيديو أن مجموعة GPU التي تحتوي على 100,000 وحدة معالجة رسومية تستخدم حل التبريد السائل السائد الحالي، والذي يغطي شرائح وحدة معالجة الرسوميات ووحدة المعالجة المركزية (بينما لا تزال المكونات الأخرى مثل الذاكرة ومحركات الأقراص الصلبة تتطلب تبريدًا بالهواء). تحتوي كل خزانة على وحدة توزيع تبريد (CDU) في الأسفل، مُهيأة بطريقة موزعة، مع مضخات زائدة لمنع انقطاع النظام بسبب الأعطال الفردية.

بطاقة الشبكة وحلول الشبكات – RoCE
في حين أن الفيديو لا يوضح طوبولوجيا الشبكة، فإنه يذكر أن كل جهاز H100 مزود بـ 8 بطاقات Mellanox BFD-3 (واحدة لكل وحدة معالجة رسومية وبطاقة BFD-3 المقابلة) وبطاقة شبكة CX7 400G واحدة. وهذا يختلف عن التكوينات المحلية الحالية، ولا يقدم الفيديو شرحًا لهذا الإعداد. بالإضافة إلى ذلك، يستخدم حل الشبكة RoCE بدلاً من الشبكات IB الأكثر انتشارًا محليًا، ويرجع ذلك على الأرجح إلى فعالية RoCE من حيث التكلفة ونضجها في التعامل مع مجموعات كبيرة الحجم. تظل Mellanox العلامة التجارية المفضلة للمفاتيح.

نموذج ومواصفات المفتاح
يقدم الفيديو نموذج المحول باعتباره محول NVIDIA Spectrum-x SN5600 Ethernet، والذي يحتوي على 64 واجهة مادية بسرعة 800 جيجابت يمكن تحويلها إلى 128 واجهة بسرعة 400 جيجابت. يقلل هذا التكوين بشكل كبير من عدد المحولات المطلوبة، مما قد يصبح اتجاهًا مستقبليًا في تصميم الشبكات.

الصيانة المعيارية لخوادم وحدة معالجة الرسوميات
نحن نعلم جميعًا أن معدل فشل وحدات معالجة الرسوميات H100 أعلى بشكل ملحوظ من معدل فشل الخوادم العامة، مما يجعل الاستبدال والإصلاح أمرًا صعبًا للغاية. وقد عرض الفيديو منصة 4U H100 من Supermicro، والتي تدعم الصيانة على شكل درج لوحدات معالجة الرسوميات ووحدة المعالجة المركزية. وكما هو موضح في الصورة، يوجد مقبض يسمح بالإزالة والصيانة بسهولة دون الحاجة إلى تفكيك الخادم بالكامل، مما يعزز كفاءة الصيانة بشكل كبير.

أضواء مؤشر لون الخزانة
كما هو موضح في الصورة، يوفر التأثير الأزرق إحساسًا تقنيًا قويًا مع الإشارة إلى أن المعدات تعمل بشكل طبيعي. إذا واجهت الخزانة مشكلة، فإن التغيير في لون مصابيح المؤشر يسمح لموظفي الصيانة بتحديد الخزانة المعيبة بسرعة. على الرغم من أنها ليست تقنية متطورة، إلا أنها مثيرة للاهتمام وعملية للغاية.

استمرار الحاجة إلى خوادم للأغراض العامة
في تصميم حلول مراكز الحوسبة الذكية، غالبًا ما يتجاهل الكثيرون الخوادم العامة. ورغم أن خوادم وحدة معالجة الرسوميات هي الأساس، إلا أن العديد من مهام الإدارة المساعدة لا تزال تتطلب الدعم من الخوادم العامة. وقد أظهر الفيديو خوادم 1U عالية الكثافة توفر قوة حوسبة وحدة المعالجة المركزية، وتتعايش مع عقد وحدة معالجة الرسوميات دون تعارض. تدعم عقد وحدة المعالجة المركزية بشكل أساسي أنظمة الأعمال المتعلقة بالإدارة.

أهمية أنظمة التخزين
على الرغم من أن الفيديو لم يوضح تصميم نظام التخزين، إلا أنه استعرض بإيجاز هذه الوحدة الأساسية لمراكز الحوسبة الذكية. يعد التخزين أمرًا بالغ الأهمية لدعم تخزين البيانات في أنظمة التدريب، مما يؤثر بشكل مباشر على كفاءة التدريب. لذلك، تختار مراكز الحوسبة الذكية عادةً تخزين GPFS عالي الأداء لبناء أنظمة ملفات موزعة.

نظام ضمان إمدادات الطاقة
وقد عرض الفيديو حزمة بطارية كبيرة تم إعدادها خصيصًا لمجموعة وحدات معالجة الرسوميات التي يبلغ عددها 100,000 ألف وحدة. ويتصل نظام الطاقة بحزمة البطارية، التي تزود المجموعة بالطاقة، مما يخفف بشكل فعال من المخاطر المرتبطة بإمدادات الطاقة غير المستقرة. ورغم عدم الكشف عن الكثير من المعلومات، إلا أنها تؤكد على أهمية مصدر طاقة موثوق به لأنظمة مراكز الحوسبة الذكية.

يتبع: التوسع المستمر للمجموعة
واختتم الفيديو بالقول إن مجموعة وحدات معالجة الرسوميات التي يبلغ عددها 100,000 ألف وحدة هي مجرد مرحلة، وأن هندسة النظام لا تزال جارية.

المنتجات ذات الصلة:
-
OSFP-800G-FR4 800G OSFP FR4 (200 جيجا لكل خط) PAM4 CWDM دوبلكس LC 2km SMF وحدة الإرسال والاستقبال الضوئية $3500.00
-
OSFP-800G-2FR2L 800G OSFP 2FR2 (200 جيجا لكل خط) PAM4 1291/1311nm 2km DOM دوبلكس LC SMF وحدة الإرسال والاستقبال الضوئية $3000.00
-
OSFP-800G-2FR2 800G OSFP 2FR2 (200 جيجا لكل خط) PAM4 1291/1311nm 2km DOM Dual CS SMF وحدة الإرسال والاستقبال الضوئية $3000.00
-
OSFP-800G-DR4 800G OSFP DR4 (200 جيجا لكل خط) PAM4 1311nm MPO-12 500m SMF DDM وحدة الإرسال والاستقبال الضوئية $3000.00
-
NVIDIA MMS4X00-NM-FLT متوافق مع 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Dual MTP / MPO-12 SMF وحدة الإرسال والاستقبال البصرية $1199.00
-
NVIDIA MMA4Z00-NS-FLT متوافق مع 800Gb / s ثنائي المنفذ OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 MMF وحدة الإرسال والاستقبال البصرية $650.00
-
NVIDIA MMS4X00-NM متوافق مع 800Gb / s ثنائي المنفذ OSFP 2x400G PAM4 1310nm 500m DOM Dual MTP / MPO-12 SMF وحدة الإرسال والاستقبال البصرية $900.00
-
NVIDIA MMA4Z00-NS متوافق مع 800Gb / s ثنائي المنافذ OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 MMF وحدة الإرسال والاستقبال الضوئية $650.00
-
NVIDIA MMS1Z00-NS400 متوافق 400G NDR QSFP112 DR4 PAM4 1310nm 500m MPO-12 مع وحدة الإرسال والاستقبال الضوئية FEC $700.00
-
NVIDIA MMS4X00-NS400 متوافق 400G OSFP DR4 Flat Top PAM4 1310nm MTP / MPO-12m SMF FEC وحدة الإرسال والاستقبال البصرية $700.00
-
وحدة إرسال واستقبال بصرية متوافقة مع NVIDIA MMA1Z00-NS400، 400 جيجابايت، QSFP112 VR4 PAM4، 850 نانومتر، 50 مترًا، MTP/MPO-12 OM4 FEC $550.00
-
NVIDIA MMA4Z00-NS400 متوافق مع 400G OSFP SR4 مسطح علوي PAM4 850 نانومتر 30 متر على OM3 / 50m على وحدة الإرسال والاستقبال البصرية OM4 MTP / MPO-12 Multimode FEC $550.00
-
NVIDIA MMS4X50-NM متوافق مع OSFP 2x400G FR4 PAM4 1310nm 2km DOM وحدة الإرسال والاستقبال الضوئية المزدوجة LC SMF $1200.00
-
OSFP-XD-1.6T-4FR2 1.6T OSFP-XD 4xFR2 PAM4 1291/1311nm 2km SN SMF وحدة الإرسال والاستقبال الضوئية $15000.00
-
وحدة إرسال واستقبال بصرية OSFP-XD-1.6T-2FR4 1.6T OSFP-XD 2xFR4 PAM4 2x CWDM4 2km Dual Duplex LC SMF $20000.00
-
OSFP-XD-1.6T-DR8 1.6T OSFP-XD DR8 PAM4 1311nm 2km MPO-16 SMF وحدة الإرسال والاستقبال الضوئية $12000.00