تصميم وممارسة شبكات الذكاء الاصطناعي عالية الأداء وواسعة النطاق

متطلبات الشبكة للتدريب على النماذج الكبيرة

في نصف العام الماضي، ظلت النماذج الكبيرة موضوعًا ساخنًا. على الرغم من أنه لا يزال هناك الكثير من الجدل حول تطوير وتطبيق النماذج الكبيرة، إلا أن قدرات النماذج الكبيرة أصبحت بالتأكيد الأساس للتطور المستقبلي للذكاء الاصطناعي. بالمقارنة مع النماذج الصغيرة السابقة، فإن النماذج الكبيرة لديها طلب أقوى على التدريب الموازي الموزع على نطاق واسع.

ويرجع ذلك إلى سببين رئيسيين: النماذج نفسها كبيرة جدًا. نظرًا للقيود الحالية لذاكرة وحدة معالجة الرسومات، يتعين علينا تقسيم النموذج إلى العديد من وحدات معالجة الرسومات للتخزين. على سبيل المثال، يحتوي نموذج FiberMall الكبير على 260 مليار معلمة، ولكن في الواقع، يمكن لوحدة معالجة الرسومات A800 واحدة بذاكرة 80 جيجابايت تخزين حوالي 1-2 مليار معلمة فقط، بما في ذلك الحالات الحسابية أثناء التدريب. إن تخزين نموذج مكون من 260 مليار معلمة وحده يتطلب مئات من وحدات معالجة الرسومات، وهو بالفعل نطاق واسع نسبيًا.

يتطلب تدريب المزيد من المعلمات المزيد من القوة الحسابية، لذلك يجب علينا تقديم وحدات معالجة الرسومات على نطاق أوسع للتسريع، مما يعني أن عدد وحدات معالجة الرسومات المطلوبة سيزداد أيضًا بمقدار أمر من حيث الحجم.

في FiberMall، نقوم بتسمية مقياس التدريب بناءً على عدد وحدات معالجة الرسومات المستخدمة لمهمة ما. على سبيل المثال، نسميها صغيرة الحجم إذا كانت أقل من 100 بطاقة، ومتوسطة الحجم إذا كانت بين 100 و1,000 بطاقة، وكبيرة الحجم إذا كانت أكثر من 1,000 بطاقة، وكبيرة الحجم إذا كانت أكثر من 10,000 بطاقة. وفقًا لاتفاقية التسمية هذه، يمكننا القول أن التدريب الموازي واسع النطاق لأكثر من 1,000 بطاقة هو الأساس لنجاح النماذج الكبيرة.

تدريب موازي

هناك العديد من الاستراتيجيات الشائعة للتدريب الموازي الموزع لنماذج التعلم الآلي. وسوف نلخص ثلاثة من الأساليب الأكثر استخدامًا.

الاستراتيجية الأكثر اعتماداً على نطاق واسع هي توازي البيانات. في توازي البيانات، تحتفظ كل وحدة معالجة رسومات بنسخة متطابقة من النموذج، ويتم تقسيم مجموعة البيانات وتوزيعها عبر وحدات معالجة الرسومات للتدريب. بعد كل تكرار تدريب، تتم مزامنة التدرجات المحسوبة على كل وحدة معالجة رسومات عالميًا، ثم يتم تحديث معلمات النموذج للتكرار التالي وفقًا لذلك عبر جميع وحدات معالجة الرسومات. في توازي البيانات، تكون عملية Allreduce مطلوبة لتجميع التدرجات عبر وحدات معالجة الرسومات، ويتناسب حجم الاتصال مع حجم معلمات النموذج، والتي يمكن أن تكون كبيرة بالنسبة للنماذج واسعة النطاق التي تحتوي على مليارات المعلمات.

الإستراتيجية الموازية الثانية هي توازي خطوط الأنابيب. تتكون نماذج الشبكات العصبية عادة من طبقات متعددة من الخلايا العصبية، بما في ذلك نماذج المحولات العميقة. في موازاة خطوط الأنابيب، يتم تقسيم النموذج حسب الطبقة، مع تخصيص طبقات مختلفة لوحدات معالجة الرسومات المختلفة. يتطلب هذا الأسلوب عمليات نقل البيانات من نقطة إلى نقطة بين وحدات معالجة الرسومات لتمرير عمليات التنشيط أثناء التمرير الأمامي والتدرجات أثناء التمرير الخلفي. على الرغم من أن الاتصال يحدث عدة مرات في كل تكرار، إلا أن حجم البيانات المنقولة ليس كبيرًا بشكل عام، كما أن متطلبات أداء الشبكة متواضعة نسبيًا.

الإستراتيجية الموازية الثالثة هي توازي الموتر، والذي يتضمن الاستخدام المشترك لوحدات معالجة الرسوميات المتعددة لإجراء حساب موتر واحد، مثل ضرب المصفوفة. يتطلب هذا الأسلوب عملية Allreduce لمزامنة نتائج حساب الموتر الجزئي عبر وحدات معالجة الرسومات. يعتمد حجم الموترات التي يتم حسابها على كل من بنية النموذج وحجم الدفعة المستخدمة للتدريب، وتحدث حسابات الموترات هذه بشكل متكرر أثناء كل تكرار تدريب. ونتيجة لذلك، فإن التوازي الموتر يضع أعلى الطلب.

ثلاثة متوازية

وبالنظر إلى خصائص الاستراتيجيات الثلاث المتوازية، يتم اعتماد نهج مختلط عادة عند تدريب النماذج واسعة النطاق.

داخل جهاز واحد يحتوي على وحدات معالجة رسومات متعددة، يتم استخدام توازي الموتر للاستفادة بشكل كامل من اتصالات NVLink ذات النطاق الترددي العالي بين وحدات معالجة الرسومات.

نظرًا لأن جهازًا واحدًا يحتوي على 8 وحدات معالجة رسوميات قد لا يكون كافيًا لاستيعاب النموذج الكبير بأكمله، يتم استخدام توازي خطوط الأنابيب عبر أجهزة متعددة لإنشاء وحدة تدريب بحد أدنى مع خطوط أنابيب متوازية.

لزيادة تسريع تدريب النموذج، يتم بعد ذلك تطبيق توازي البيانات، حيث تتكون كل مجموعة بيانات متوازية (DP) من مزيج من توازي الموتر وتوازي خطوط الأنابيب.

تحدث عمليات Allreduce في توازي البيانات داخل كل مجموعة DP، حيث تتم مزامنة التدرجات عبر وحدات معالجة الرسومات لنفس مجموعة DP. على سبيل المثال، يُظهر الرسم التخطيطي تكوينًا يحتوي على 8 وحدات معالجة رسوميات في توازي الموتر، و4 وحدات معالجة رسوميات في توازي خطوط الأنابيب، و3 مجموعات DP. في هذه الحالة، هناك 32 مجموعة Allreduce، تحتوي كل منها على 3 وحدات معالجة رسوميات تؤدي مزامنة التدرج.

متطلبات الشبكة الأساسية لتدريب النماذج الكبيرة هي عملية Allreduce في مرحلة توازي البيانات، حيث تحتاج كل وحدة معالجة رسومات إلى المشاركة في Allreduce على أحجام البيانات في نطاق 10 جيجابايت.

التوازي الهجين

لقد دفعتنا الحاجة إلى تدريب نموذجي واسع النطاق إلى اقتراح ثلاثة أهداف رئيسية لشبكات الذكاء الاصطناعي عالية الأداء: النطاق الترددي الواسع للغاية، والنطاق الترددي العالي للغاية، والاستقرار الطويل للغاية.

مقياس كبير جدًا

يحدد حجم النموذج بشكل مباشر سرعة تدريب النموذج. كما هو موضح في الشكل، بالنسبة لنموذج يحتوي على 175 مليار معلمة، سيستغرق التدريب أكثر من 100 يوم باستخدام 2,000 وحدة معالجة رسوميات. ومع ذلك، باستخدام 8,000 وحدة معالجة رسوميات، يمكن ضغط وقت التدريب إلى حوالي 30 يومًا. وهذا أمر بالغ الأهمية للتكرار السريع للنماذج واسعة النطاق اليوم.

عرض النطاق الترددي العالي للغاية

يحدد عرض النطاق الترددي AllReduce بشكل مباشر الكفاءة الإجمالية للتدريب الموزع على نطاق واسع. كما يوضح الشكل، عندما يكون متوسط ​​عرض النطاق الترددي لوحدة معالجة الرسومات الفردية AllReduce 5 جيجابايت/ثانية، فإن نسبة التسارع الإجمالية في التدريب الموزع واسع النطاق تكون 70% فقط. ولتحقيق نسبة تسارع تبلغ 90%، يجب أن يصل عرض النطاق الترددي لوحدة معالجة الرسومات الفردية AllReduce إلى 20 جيجابايت/ثانية، أي ما يعادل وحدة معالجة رسومات واحدة تستخدم بطاقة شبكة 400 جيجا بالكامل.

استقرار طويل للغاية

وبما أن التدريب النموذجي يمكن أن يستمر لعدة أسابيع، فإن الاستقرار على المدى الطويل له أهمية قصوى. باستخدام توفر وحدة معالجة الرسومات كمثال، إذا كان التوفر الشهري لوحدة معالجة رسومات واحدة هو 99.9%، فإن احتمال مواجهة الفشل والانقطاع خلال شهر واحد من التدريب مع 1,000 وحدة معالجة رسومات هو 60%. حتى لو تم تحسين توفر وحدة معالجة الرسومات إلى 99.99%، فإن احتمال الانقطاع مع 8,000 وحدة معالجة رسومات لا يزال حوالي 50%. لتقليل انقطاعات التدريب وتقليل الحاجة إلى نقاط التفتيش المتكررة، يجب أن تضمن الشبكة توفرًا أعلى.

متطلبات الشبكة

AIPod تصميم شبكة عالي الأداء

لتحقيق هذه الأهداف، قمنا بتصميم شبكة AIPod عالية الأداء للبنية التحتية للذكاء الاصطناعي.

كما هو موضح في الرسم البياني، فإن شبكة AIPod عبارة عن هيكل متصل بالكامل مع ما يقرب من 400 محول و3,000 بطاقة شبكة و10,000 كابل و20,000 وحدة ضوئية. إجمالي طول الكابل يعادل المسافة من بكين إلى تشينغداو.

آيبود عالي الأداء

التصميم العقلاني لشبكة AIPod

بعد المناقشة السابقة حول الفهم المفاهيمي، دعونا الآن نتعمق في التصميم العقلاني لشبكة AIPod.

لدعم النطاق الهائل لشبكة AIPod، تم اختيار بنية شبكة CLOS غير قابلة للحجب من 3 طبقات. تشبه طوبولوجيا شبكة CLOS الرسم التخطيطي الموضح سابقًا، حيث:

ترتبط الخوادم بمفاتيح طبقة Leaf (LF).

تتواصل المفاتيح الورقية مع مفاتيح العمود الفقري (SP).

ترتبط مفاتيح العمود الفقري أيضًا بطبقة SuperSpine (SSP).

كما ذكرنا سابقًا، أثناء التدريب على النماذج الكبيرة، يحدث الاتصال الأساسي بين وحدات معالجة الرسومات الخاصة بالخادم نفسه، على سبيل المثال، GPU 1 إلى GPU 1، وGPU 2 إلى GPU 2، وما إلى ذلك. يعد الاتصال عبر وحدة معالجة الرسومات أقل تواتراً.

لاستيعاب نمط الاتصال هذا، تعتمد شبكة AIPod بنية مكونة من 8 قنوات. يحتوي كل خادم على 8 منافذ للشبكة، كل منها متصل بمحول Leaf مختلف. تشكل هذه المفاتيح ذات الـ 8 أوراق مجموعة تجميعية، تدعم ما يصل إلى 512 وحدة معالجة رسوميات.

علاوة على ذلك، ترتبط المفاتيح ذات الـ 8 أوراق بقنوات مختلفة، وداخل كل قناة، توجد المفاتيح الورقية والمحورية في طوبولوجيا شبكية كاملة. يسمح هذا التصميم للمجموعة بالتوسع لدعم أكثر من 16 ألف وحدة معالجة رسوميات.

على الرغم من أن غالبية الاتصالات تتم داخل نفس القناة، إلا أنه لا تزال هناك حاجة للاتصال عبر القنوات. ولمعالجة هذه المشكلة، تستخدم شبكة AIPod طبقة SuperSpine لربط محولات Spine للقنوات المختلفة، مما يوفر مسار اتصال سلسًا عبر الشبكة بأكملها.

تستخدم شبكة AIPod تصميمًا غير محظور أو بنسبة اشتراك زائد 1:1، حيث يكون عرض النطاق الترددي للوصلة الصاعدة والوصلة الهابطة للمفاتيح متساويًا، مما يضمن عرض نطاق ترددي كافٍ داخل المجموعة.

لدعم أكبر نطاق ممكن، تستخدم شبكة AIPod أحدث شرائح التبديل عالية السعة، مثل محول 51.2T، والذي تطور من الأجيال السابقة 12.8T و25.6T.

يتيح هذا التصميم العقلاني لشبكة AIPod، مع بنية CLOS متعددة الطبقات، والاتصالات القائمة على القناة، ومكونات التبديل عالية السعة، دعم أعباء عمل تدريب الذكاء الاصطناعي واسعة النطاق.

3-مستوى غير متقارب

في المناقشة السابقة، قمنا بتغطية بناء شبكات AIPod واسعة النطاق. الآن، دعونا نحول انتباهنا إلى التحديات المتعلقة بعرض النطاق الترددي للشبكة.

اختارت البنية التحتية السحابية الذكية لـ FiberMall الحد الأقصى لمواصفات الوصول إلى الخادم وهو 8x400غ، وتستخدم الشبكة بنية CLOS غير قابلة للحظر، وتدعم RDMA وGDR. ومن الناحية النظرية، ينبغي أن يوفر هذا إمكانات نطاق ترددي عالية جدًا. ومع ذلك، مع زيادة حجم الشبكة، يمكن أن تنشأ مشكلات مختلفة، أحد أهمها هو تعارض اختيار المسار عبر المحولات.

من الناحية الفنية، تحتوي جميع عمليات نقل الشبكة تقريبًا على مشكلة متأصلة: لتجنب إعادة ترتيب الحزم داخل الاتصال، مما قد يؤدي إلى إعادة الإرسال وتدهور الأداء عند الطرف المتلقي، تحتاج المحولات إلى إعادة توجيه الحزم من نفس الاتصال على طول مسار واحد. يعتمد اختيار هذا المسار على خوارزمية التجزئة المستخدمة.

من المعروف أن خوارزميات التجزئة لديها تصادمات، كما هو موضح في الرسم البياني. إذا اختار اتصالان متقاطعان نفس الارتباط الموجود على الجانب الأيسر في وقت واحد، فسوف يصبح مزدحمًا، بينما يظل الرابط الأيمن غير مستغل بشكل كافٍ، مما يؤدي بشكل فعال إلى خفض عرض النطاق الترددي لكلا الاتصالين إلى النصف. هذه المشكلة شائعة جدًا في بيئات التدريب واسعة النطاق.

للتخفيف من تأثير هذه المشكلة، نقوم عادةً بتكوين مكتبة اتصالات NCCL لاستخدام اتصالات متعددة بين وحدات معالجة الرسومات، كما هو موضح في الرسم التخطيطي الموجود على اليمين. كلما زاد عدد الاتصالات، انخفض احتمال حدوث خلل شديد في التوازن. يزيد هذا الأسلوب من إنتروبيا التوجيه في الشبكة ويقلل من تأثير تعارضات اختيار المسار المستندة إلى التجزئة، لكنه لا يحل المشكلة تمامًا.

عرض النطاق الترددي العالي

يمكننا أن نلاحظ أن هذه المشكلات تحدث فقط في سيناريوهات الاتصال عبر التبديل. لذلك، لتقليل التأثير بشكل أكبر، يجب أن نسعى جاهدين للحفاظ على الاتصال داخل مفتاح واحد كلما أمكن ذلك. لا يتقاطع الاتصال الجماعي الداخلي بين وحدات معالجة الرسومات التي لها نفس الرقم مع المفاتيح، وبالتالي يتجنب تعارض اختيار المسار القائم على التجزئة. ولهذا السبب نهدف إلى تعظيم حجم كل مجموعة تجميعية.

لتقليل الاتصال عبر المحولات، توفر شبكة AIPod أسلوبًا مدركًا لبنية الشبكة. يتيح ذلك لأنظمة المستوى الأعلى أن تكون على دراية بموقع وحدة معالجة الرسومات الحالية في بنية الشبكة ومجموعة التجميع الخاصة بها ومعرف المجموعة الخاص بها.

يمكن لـ AIPod أن يعرض هذه المعلومات لنظام جدولة المهام، مما يمكنه من جدولة المهام داخل نفس مجموعة التجميع قدر الإمكان، مما يضمن بقاء الاتصال داخل مجموعة تجميع واحدة.

ومع ذلك، غالبًا ما تكون مهام النماذج الكبيرة كبيرة جدًا بحيث لا يمكن حصرها ضمن مجموعة تجميعية واحدة. في مثل هذه الحالات، نحتاج إلى الاستفادة من معلومات مجموعة التجميع لإجراء معالجة منظمة لموارد وحدة معالجة الرسومات العالمية، مما يسمح لمكتبة الاتصالات بإنشاء طبولوجيا Allreduce أكثر كفاءة تقلل من حركة المرور المتقاطعة. يوضح الرسم البياني الموجود في أسفل اليمين هذا المفهوم، حيث يمكن أن يؤدي أمران مختلفان لبناء الحلقة لعملية 4-GPU Allreduce إلى استخدام عرض النطاق الترددي للمحولات المتقاطعة بشكل مختلف. يعتبر نهج الجانب الأيسر أكثر كفاءة، في حين أن الجانب الأيمن أقل كفاءة. هذه هي فائدة القدرات المدركة لبنية الشبكة في AIPod.

NCCL

يمكن للنهج المدرك لهندسة الشبكة أن يقلل بشكل كبير من مقدار الاتصالات عبر المحولات، مما يخفف من تأثير تعارضات اختيار المسار المستندة إلى التجزئة. ومع ذلك، لم يتم حل المشكلة بشكل كامل، حيث لا يزال من الممكن حدوث صراعات.

لمعالجة هذه المشكلة بشكل كامل، نحتاج إلى الاستفادة من إمكانات إعادة التوجيه متعددة المسارات للشبكة، والتي تسمح باستقبال حزم خارج الترتيب، مما يكسر الافتراض القائل بأن حزم اتصال واحد لا يمكن إعادة توجيهها إلا على طول مسار واحد. لقد قدمت شبكات Infiniband إمكانية التوجيه التكيفي هذه، وفي AIPod، قمنا بتنفيذ وظيفة مماثلة باستخدام تقنية موازنة التحميل الديناميكي (DLB) أعلى محولات FiberMall المصممة خصيصًا.

في هذا الأسلوب، كما هو موضح في الرسم التخطيطي، تقوم بطاقة واجهة الشبكة أولاً بوضع علامة على الحزم للسماح بالمعالجة خارج الترتيب. تقوم المحولات بعد ذلك بحساب المسار الأمثل لكل حزمة استنادًا إلى عوامل مثل عمق قائمة الانتظار واستخدام الارتباط. يقدم هذا تحدي إعادة ترتيب الحزم، والذي يعالجه جهاز الاستقبال من خلال معالجة إعادة ترتيب الحزم.

يمكن لهذا المزيج من الآليات أن يحل بشكل فعال مشكلة تعارض اختيار المسار القائم على التجزئة في الاتصالات عبر المحولات. ونحن نعتقد أن تعزيز هذه القدرات التقنية الأساسية هو الحل النهائي للتدريب واسع النطاق.

ضمان الاستقرار في شبكات AIPod

يعد الحفاظ على المهام طويلة الأمد دون انقطاع أمرًا بالغ الأهمية للتدريب على النماذج الكبيرة، ولكن فشل الأجهزة أمر لا مفر منه. بالنسبة للمجموعة التي يمكنها استيعاب 16,000 وحدة معالجة رسومات، قد يكون هناك ما يقرب من 100,000 وحدة ضوئية. بافتراض أن متوسط ​​الوقت بين حالات الفشل (MTBF) يبلغ 10 مليون ساعة لكل وحدة، مع مثل هذه القاعدة الكبيرة، يمكن أن يحدث الفشل كل 4 أيام تقريبًا في المتوسط، حيث تصبح الأحداث ذات الاحتمالية المنخفضة أحداثًا ذات احتمالية عالية على نطاق واسع.

ولمعالجة هذه المشكلة، تم تصميم شبكة AIPod لتمكين التعافي السريع من أعطال الأجهزة. على سبيل المثال، لنفترض أن هناك رابطًا في الشبكة يواجه فشلًا، مما يتسبب في فقدان الحزمة. في هذه الحالة، يجب على AIPod التأكد من أن مدة فقدان الحزمة هذه أقل من المهلة النموذجية التي تحددها مكتبة الاتصالات، مما يمنع انقطاع المهمة.

بالنسبة لفقدان حزمة الوصلة الصاعدة، يمكن أن توفر تقنية موازنة التحميل الديناميكية الخاصة بـ AIPod استردادًا على نطاق ميلي ثانية عن طريق تحديد رابط بديل متاح. بالنسبة لفقد حزمة الوصلة الهابطة، يقوم AIPod بتشغيل تحديثات توجيه الشبكة وتقاربها، مما يؤدي إلى تحسين استراتيجية تحديث التوجيه وكفاءة التوزيع للحفاظ على مدة فقدان حزمة الوصلة الهابطة ضمن المستوى الثاني.

استعادة

بالإضافة إلى ذلك، تتضمن شبكة AIPod آلية الكشف عن الصندوق الأسود لتحديد المشكلات المخفية بشكل استباقي، مثل مشكلات قلب البت الناتجة عن عيوب شريحة التبديل، والتي يمكن أن تؤدي إلى تلف الحزمة وفقدانها دون اكتشاف فشل واضح. تضمن هذه الآلية مراقبة كل رابط بشكل مستمر، وأي مشكلات في الاتصال تؤدي إلى التعريب والعزل التلقائي، بالإضافة إلى تنبيهات للتدخل السريع من قبل فريق العمليات.

بالإضافة إلى حالات الفشل المتعلقة بالاتصال، فإن تصميم شبكة AIPod بدون فقدان، والذي تم تمكينه بواسطة تقنية PFC، يمكن أن يواجه أيضًا حالات شاذة، مثل حالات توقف PFC أو عواصف PFC المستمرة بسبب فشل الرقاقة. يعالج AIPod هذه التحديات من خلال منصة قياس الأداء عن بعد، المبنية على محولات FiberMall المخصصة، والتي توفر رؤية لأي فقدان للحزم، أو PFC، أو حالات شاذة في المخزن المؤقت، مما يسمح بالكشف السريع والحل قبل التأثير على استقرار تدريب النماذج الكبيرة.

تحقيق زمن وصول منخفض للغاية في شبكات AIPod

على الرغم من أن زمن الوصول المنخفض ليس أحد الاعتبارات الأساسية للتدريب على النماذج الكبيرة، حيث يكون عرض النطاق الترددي هو الاهتمام الأساسي، فقد تم تصميم شبكة AIPod أيضًا لدعم أعباء عمل الذكاء الاصطناعي الحساسة لزمن الاستجابة.

العوامل الرئيسية التي يمكن تحسينها لزمن الوصول المنخفض هي تأخير الألياف وتأخير قائمة انتظار التبديل. تعمل شبكة AIPod على تحسين التخطيط المادي للمجموعة لتقليل المسافة بين الخوادم والمحولات والمحولات، مما يسمح باستخدام اتصالات ألياف أقصر لتقليل تأخير انتشار الألياف.

بالإضافة إلى ذلك، تعمل شبكة AIPod على تحسين معلمات التحكم في الازدحام لتقليل إشغال المخزن المؤقت للمحول، مما يؤثر بشكل مباشر على تأخير الانتظار. ومن خلال هذه التحسينات، يمكن لـ AIPod تحقيق زمن استجابة للشبكة على مستوى الميكروثانية، وهو أمر لا يكاد يذكر في سياق أداء التدريب على النماذج الكبيرة الشاملة.

الاستفادة من التخزين عالي الأداء في AIPod

بالإضافة إلى شبكة التدريب عالية الأداء، يستفيد AIPod أيضًا من إمكانات التخزين عالية الأداء الخاصة بـ FiberMall، مثل نظام الملفات المتوازي المرن القائم على RDMA (PFS) الذي يمكنه توفير ما يصل إلى 200 جيجابت في الثانية لكل عميل، وتحميل الأجهزة عالي الأداء. موازنة مثيلات الوصول إلى تخزين الملفات السحابية (CFS) أو تخزين الكائنات (BOS)، مما يوفر ما يزيد عن 10 جيجابت في الثانية من النطاق الترددي المستقر لكل عميل.

تساهم تقنيات التخزين عالية الأداء هذه بشكل كبير في الكفاءة الحسابية الشاملة للتدريب على النماذج الكبيرة.

تدريب نموذج AIPod الكبير في الممارسة العملية

وقد أثبتت شركة FiberMall التطبيق العملي لشبكة AIPod في التدريب على النماذج واسعة النطاق، حيث عرضت التشغيل المستقر مع عرض نطاق ترددي للاتصالات لكل وحدة معالجة رسومات يتجاوز 100 جيجابت في الثانية على كل من مجموعتي RoCE وInfiniband.

لدعم هذه الجهود التدريبية واسعة النطاق، قامت شركة FiberMall بتطوير أدوات متخصصة، بما في ذلك أداة تصور المهام عالية الدقة التي يمكنها تجميع وتحليل بيانات حركة مرور الشبكة لآلاف المثيلات المتوازية، بالإضافة إلى أداة تشخيص الأخطاء التي يمكنها التعرف بسرعة على السبب الجذري للعديد من الحالات الشاذة، مثل فشل وحدة معالجة الرسومات أو العقد البطيئة، والتي يمكن أن تعيق أداء التدريب بشكل عام.

تتيح شبكة AIPod عالية الأداء وأدوات الدعم وقدرات التخزين لعملاء FiberMall تدريب النماذج الكبيرة بكفاءة وفعالية من حيث التكلفة، والحفاظ على مكانة رائدة في عصر نماذج الذكاء الاصطناعي واسعة النطاق.

اترك تعليق

انتقل إلى الأعلى