فهم حل Spectrum-X من NVIDIA

حل Spectrum-X من NVIDIA هو أول حل إيثرنت شامل في العالم مصمم خصيصًا للذكاء الاصطناعي التوليدي. يتضمن هذا الحل الشامل العديد من المكونات الرئيسية: مفاتيح سلسلة Spectrum-4، وبطاقات SuperNIC من BlueField-3، ووحدات الكابلات عالية الأداء LinkX 800G/400G، وحل برمجي متكامل متكامل مع إمكانيات تسريع الأجهزة. تكمن القوة الحقيقية لـ Spectrum-X في التكامل الوثيق بين كل من الأجهزة والبرامج؛ فاستخدام أي جزء منفرد بمعزل عن الآخر لا يُظهِر كفاءته القصوى بشكل كامل.

نفيديا سبيكتروم-X

اليوم، أطلقت العديد من الشركات الرائدة في تصنيع الرقائق رقائق تبديل مصممة لتطبيقات الذكاء الاصطناعي والتعلم الآلي، حيث يصل معدل نقل البيانات باستخدام رقاقة واحدة إلى 51.2 تيرابايت في الثانية. وفي حين يمكن استخدام رقائق تبديل مراكز البيانات التقليدية في سيناريوهات الذكاء الاصطناعي، إلا أنها تواجه صعوبة في الكفاءة عند التعامل مع حركة مرور الذكاء الاصطناعي التي تركز على التدريب والاستدلال.

دعونا نتعمق في سبب مواجهة شبكة Ethernet التقليدية لقيود مع نماذج حركة المرور الخاصة بالذكاء الاصطناعي، ويرجع ذلك في المقام الأول إلى اختلال التوازن في التحميل، وارتفاع زمن الوصول والتذبذب، وضعف التحكم في الازدحام.

مشكلة عدم توازن تحميل ECMP

تتعامل مراكز بيانات Ethernet التقليدية في المقام الأول مع تطبيقات مثل تصفح الويب، وبث الموسيقى والفيديو، والمهام المكتبية اليومية. تتضمن هذه التطبيقات عادةً تدفقات بيانات صغيرة ومتعددة (يشار إليها باسم "التدفقات") موزعة عشوائيًا، مما يجعلها مناسبة تمامًا لتقنيات موازنة التحميل متعددة المسارات القائمة على خوارزميات التجزئة (ECMP)، والتي تضمن استخدام عرض النطاق الترددي للشبكة بالتساوي.

في تدريب نموذج الذكاء الاصطناعي، ترتبط النماذج والمعلمات ووحدات معالجة الرسوميات ووحدات المعالجة المركزية وبطاقات الشبكة بشكل وثيق. تتكون حركة المرور على الشبكة بشكل أساسي من عمليات جماعية عالية النطاق الترددي مثل الاختزال الكامل والجميع إلى الكل. عادةً، يتم إقران كل وحدة معالجة رسوميات ببطاقة شبكة عالية النطاق الترددي، وتنشئ كل بطاقة شبكة عددًا صغيرًا نسبيًا من اتصالات التدفق أثناء كل عملية تدريب. هذه التدفقات كبيرة بما يكفي لاستهلاك عرض النطاق الترددي الكامل لبطاقة الشبكة بسرعة - يشار إليها باسم "تدفقات الفيل".

نظرًا لطبيعة تدفقات الأفيال، فقد تركز على مسارات شبكة محددة بسبب خوارزميات التجزئة، مما يؤدي إلى زيادة التحميل على هذه المسارات بينما تظل مسارات أخرى غير مستغلة بالكامل. يجعل توزيع حركة المرور غير المتوازن هذا طرق موازنة التحميل التقليدية القائمة على ECMP غير فعالة، وبالتالي يؤثر على كفاءة التدريب الإجمالية.

مشاكل ارتفاع زمن الوصول والتذبذب

تعتمد تطبيقات Ethernet التقليدية على برمجة مأخذ TCP/IP، حيث يجب على وحدة المعالجة المركزية نسخ بيانات المستخدم من مساحة المستخدم إلى مساحة النواة، ثم من مساحة النواة إلى برنامج تشغيل بطاقة الشبكة للمعالجة والنقل إلى المستقبل. تزيد هذه العملية من زمن الوصول وتضيف إلى عبء عمل وحدة المعالجة المركزية. لمعالجة هذه المشكلات، تستخدم مجموعات الحوسبة الذكية الحديثة شبكات بدون فقدان تدعم تقنية الوصول المباشر عن بعد للذاكرة (RDMA)، مثل InfiniBand أو RDMA عبر Ethernet المتقاربة (RoCE). تقلل هذه التقنيات من زمن وصول نقل بيانات التطبيق بشكل كبير عن طريق تجاوز النواة (تجاوز النواة) واستخدام آليات النسخ الصفري.

في سيناريوهات تدريب الذكاء الاصطناعي، تعمل تقنيات مثل GPU Direct RDMA وGPU Direct Storage على تمكين تبادل البيانات المباشر بين ذاكرة وحدة معالجة الرسومات أو بين ذاكرة وحدة معالجة الرسومات والتخزين عبر RDMA. وهذا يقلل من زمن انتقال بيانات ذاكرة وحدة معالجة الرسومات إلى عُشر الزمن الأصلي. بالإضافة إلى ذلك، تدعم مكتبة NVIDIA Collective Communications Library (NCCL) واجهات RDMA بسلاسة، مما يبسط إلى حد كبير الانتقال من أطر TCP إلى RDMA لتطبيقات الذكاء الاصطناعي.

عند تدريب نماذج كبيرة تحتوي على مئات الملايين من المعلمات، غالبًا ما نقوم بتفكيك البيانات والنماذج للمعالجة المتوازية لتعزيز الكفاءة. في هذه العملية، تعمل آلاف وحدات معالجة الرسوميات معًا في تكوينات متوازية ومتعددة الأبعاد ومعقدة، وتتبادل المعلمات باستمرار وتلخص النتائج الحسابية. يعد ضمان كفاءة واستقرار كل خطوة من خطوات عملية التدريب المتوازية الموزعة هذه أمرًا بالغ الأهمية. يمكن لأي فشل في وحدة معالجة الرسوميات أو زيادة زمن الوصول في الاتصال بين العقد أن يعرقل عملية التدريب بأكملها. لا يؤدي هذا الزمن المتزايد إلى إطالة وقت التدريب الإجمالي فحسب، بل يؤثر أيضًا سلبًا على تحسين السرعة (نسبة تسريع التدريب) والنتائج النهائية. لذلك، يتطلب تدريب الذكاء الاصطناعي شبكات ذات زمن وصول أقل وجودة ارتباط أفضل.

مشكلات ضعف التحكم في ازدحام الشبكة

في التدريب الموازي الموزع، غالبًا ما تتسبب طفرات حركة المرور "المُرسَلة"، حيث ترسل مصادر متعددة البيانات إلى جهاز استقبال واحد، في ازدحام الشبكة. تتبع شبكات إيثرنت التقليدية نموذج خدمة بأفضل جهد، مما يجعل من الصعب تجنب تجاوز سعة المخزن المؤقت وفقدان الحزم، حتى مع جودة الخدمة الشاملة الجيدة. عادةً، تستخدم بروتوكولات الطبقة العليا آليات إعادة الإرسال للتخفيف من آثار فقدان الحزم. بالنسبة لشبكات إيثرنت التي تدعم RDMA، فإن تحقيق فقدان الحزم صفر أمر بالغ الأهمية.

لتحقيق هذا الهدف، يتم اعتماد تقنيتين رئيسيتين على نطاق واسع: آليات التحكم في التدفق من قفزة إلى أخرى وآليات التحكم في الازدحام لحركة المرور "الموجهة". في شبكات RDMA عبر Ethernet المتقاربة (RoCE)، يتم تنفيذ هذه الآليات كـ Priority Flow Control (PFC) و Data Center Quantized Congestion Control (DCQCN)، على التوالي.

ورقة بيضاء

في سيناريوهات تدريب الذكاء الاصطناعي، في حين أن التحكم في التدفق ذي الأولوية (PFC) والتحكم في ازدحام مركز البيانات الكمي (DCQCN) يخففان من ازدحام الشبكة، إلا أنهما لا يزالان يمثلان أوجه قصور كبيرة. يمنع التحكم في التدفق ذي الأولوية فقدان البيانات من خلال توليد ضغط خلفي من قفزة إلى أخرى، ولكن هذا يمكن أن يؤدي إلى أشجار ازدحام، وحظر رأس الخط، وحلقات الجمود، مما يؤثر في النهاية على الأداء العام للشبكة. يعتمد DCQCN على علامة ECN ورسائل CNP لضبط المعدلات، لكن مؤشر الازدحام الخاص به ليس دقيقًا، وتعديلات المعدل بطيئة، وغير قادرة على الاستجابة بسرعة لظروف الشبكة الديناميكية، وبالتالي الحد من الإنتاجية. يتطلب كلاهما تعديلات يدوية ومراقبة، مما يزيد من تكاليف التشغيل وتعقيد الصيانة، ويفشل في تلبية المتطلبات الصارمة للشبكات عالية الأداء ومنخفضة الكمون في تدريب الذكاء الاصطناعي.

كيف تتغلب تقنية NVIDIA Spectrum-X على هذه المشكلات

تتميز حلول Spectrum-X من NVIDIA عن غيرها من الشركات المصنعة للشبكات من خلال معالجة هذه القيود التقليدية لشبكات Ethernet في تدريب الذكاء الاصطناعي. ووفقًا للورقة البيضاء الفنية الأخيرة، فإن الميزة الأساسية لـ Spectrum-X تكمن في تقنية التوجيه التكيفي، والتي تعتبر ميزة "القاتلة". تعالج هذه التقنية بشكل مباشر تخصيص النطاق الترددي غير المتساوي الناجم عن آليات توزيع التجزئة الثابتة في شبكات Ethernet التقليدية.

من خلال التكامل العميق لقدرات مفاتيح جانب الشبكة ووحدات معالجة البيانات على جانب المحطة الطرفية، يحقق Spectrum-X مراقبة ديناميكية في الوقت الفعلي لعرض النطاق الترددي المادي لكل رابط وحالة ازدحام منفذ الخروج. بناءً على هذه المراقبة، يمكن لـ Spectrum-X تنفيذ استراتيجيات توزيع تحميل ديناميكية مضبوطة بدقة لكل حزمة شبكة، مما يعزز بشكل كبير توازن الرابط والاستخدام الفعال لعرض النطاق الترددي من 50%-60% التقليدي إلى أكثر من 97%. يعمل هذا التحسين بشكل مباشر على القضاء على مشكلات زمن الوصول الطويلة التي تسببها "تدفقات الفيل" (تدفقات نقل البيانات واسعة النطاق) في تطبيقات الذكاء الاصطناعي.

أداء التوجيه التكيفي

كما هو موضح، يمكن أن يؤدي ECMP التقليدي إلى إطالة أوقات الإكمال بشكل كبير لتدفقات بيانات محددة بسبب الاستخدام غير المتساوي للنطاق الترددي. وعلى النقيض من ذلك، يضمن التوجيه التكيفي توزيع جميع تدفقات البيانات بالتساوي عبر روابط متعددة، مما يؤدي إلى تقصير وموازنة أوقات إرسال كل تدفق بيانات بشكل كبير، وبالتالي تقليل دورة إكمال مهمة التدريب الإجمالية. ومن الجدير بالذكر أنه في أنماط الاتصال الجماعي الشائعة في سيناريوهات تدريب الذكاء الاصطناعي مثل التخفيض الكامل والجميع إلى الجميع، يعرض Spectrum-X مزايا أداء كبيرة على Ethernet التقليدية بسبب قدراته المتفوقة على استخدام النطاق الترددي للرابط.

وضع البيانات المباشر (DDP): حل ثوري لتحديات إعادة التجميع غير المنظمة

في حين تعمل استراتيجيات موازنة التحميل لكل حزمة على تحسين كفاءة استخدام النطاق الترددي بشكل كبير وأصبحت حلاً مطلوبًا للغاية، فإن التحدي الرئيسي الذي تجلبه هو إعادة تجميع الحزم غير المنظمة في الطرف المتلقي. كانت هذه المشكلة صعبة على الصناعة للتغلب عليها. تعتمد الأساليب التقليدية إما على المعالجة من جانب الشبكة أو حلول جانب المحطة الطرفية، لكن كلاهما محدود بسبب اختناقات أداء البرامج والأجهزة، مما يؤدي إلى نتائج دون المستوى الأمثل.

إن Spectrum-X، بفضل التكامل العميق المبتكر بين شبكة Spectrum-4 وأجهزة BlueField-3 الطرفية، يعالج هذا التحدي بأناقة. وفيما يلي شرح مفصل لتدفق معالجة DDP في سيناريو RoCE (RDMA عبر Ethernet المتقاربة):

RoCE (RDMA عبر إيثرنت متقارب)

على الجانب الأيسر، يتم أولاً تمييز حركة التدريب التي تنشأ من ذاكرات GPU المختلفة بشكل خاص بواسطة بطاقات NIC BlueField-3 المرسلة الخاصة بها. ثم يتم إرسال هذه الحزم المحددة إلى مفاتيح Top of Rack (TOR) Spectrum-4 المتصلة مباشرة. تستخدم مفاتيح TOR، باستخدام قدراتها القوية في الأجهزة، لتحديد الحزم المحددة BlueField-3 بسرعة، وبناءً على حالة النطاق الترددي في الوقت الفعلي وظروف المخزن المؤقت للارتباط الصاعد، تقوم بتوزيع حزم كل تدفق بيانات بذكاء عبر أربعة مسارات للارتباط الصاعد إلى أربعة مفاتيح رئيسية، باستخدام خوارزميات التوجيه الديناميكي لكل حزمة.

أعلى الرف (TOR)

مع مرور هذه الحزم عبر مفاتيح العمود الفقري الخاصة بها، تصل في النهاية إلى مفتاح TOR الوجهة ويتم إرسالها إلى بطاقة شبكة BlueField-3 الخاصة بالخادم المستهدف. ونظرًا لمسارات الإرسال المختلفة واختلافات أداء المعدات، فقد تصل الحزم إلى بطاقة شبكة BlueField-3 الوجهة خارج الترتيب. تستخدم بطاقة شبكة BlueField-3 الوجهة، باستخدام تقنية DDP المدمجة بها، لتحديد الحزم التي تحمل علامة BlueField-3 بسرعة وقراءة عناوين ذاكرة الحزم مباشرةً، ووضع الحزم بدقة في ذاكرة وحدة معالجة الرسومات المستهدفة. بعد ذلك، تعمل تقنية DDP على دمج هذه الحزم غير المرتبة بشكل أكبر، مما يضمن دمجها في تدفق بيانات كامل بالترتيب الصحيح، مما يزيل تمامًا مشكلات عدم الترتيب الناجمة عن اختلافات مسار الشبكة وتفاوت أداء المعدات.

بلو فيلد-3

من خلال التكامل السلس بين تقنيات التوجيه الديناميكي وتسريع الأجهزة DDP، لا يعمل Spectrum-X على حل مشكلات تخصيص النطاق الترددي غير المتساوي لآليات Ethernet ECMP (مسارات متعددة متساوية التكلفة) التقليدية فحسب، بل يعمل أيضًا على التخلص بشكل أساسي من ظاهرة زمن الوصول الطويل الناجم عن الحزم غير المرتبة. يوفر هذا حلاً أكثر استقرارًا وكفاءة لنقل البيانات لتطبيقات الحوسبة عالية الأداء مثل تدريب الذكاء الاصطناعي.

عزل الأداء للذكاء الاصطناعي متعدد المستأجرين

في نظام بيئي سحابي متزامن للغاية للذكاء الاصطناعي، غالبًا ما ترتبط تقلبات أداء التطبيقات وعدم اليقين في وقت التشغيل ارتباطًا وثيقًا بالازدحام على مستوى الشبكة. لا تنشأ هذه الظاهرة فقط من تقلبات حركة المرور على شبكة التطبيق نفسه، بل قد تنشأ أيضًا بسبب حركة المرور في الخلفية من تطبيقات متزامنة أخرى. على وجه التحديد، يصبح الازدحام "من العديد إلى واحد" (مصادر بيانات متعددة ترسل البيانات إلى جهاز استقبال واحد) عنق زجاجة أداء كبيرًا، مما يزيد بشكل كبير من ضغط المعالجة على جهاز الاستقبال.

في بيئة شبكة RoCE متعددة المستأجرين أو متعددة المهام، في حين يمكن لتقنيات مثل VXLAN تحقيق درجة معينة من عزل المضيف، تظل مشكلات ازدحام حركة مرور المستأجرين وعزل الأداء صعبة. السيناريو الشائع هو أن بعض التطبيقات تعمل بشكل ممتاز في بيئة مادية عارية ولكنها تشهد انخفاضًا كبيرًا في الأداء بمجرد انتقالها إلى السحابة.

ورقة بحثية عن NVIDIA Spectrum-X

على سبيل المثال، لنفترض أن عبء العمل A وعبء العمل B يعملان في نفس الوقت في النظام. عندما يحدث ازدحام في الشبكة ويؤدي إلى تشغيل آليات التحكم في الازدحام، بسبب المعلومات المحدودة التي تحملها ECN، لا يستطيع المرسل تحديد مستوى المحول الذي حدث فيه الازدحام أو مدى حدوثه. وبالتالي، لا يمكنه تحديد مدى السرعة التي يجب أن يزيد بها أو يخفض بها معدل الإرسال، وغالبًا ما يعتمد على أساليب استدلالية للتقارب تدريجيًا. إن وقت التقارب هذا طويل ويمكن أن يتسبب بسهولة في حدوث تداخل بين الوظائف. بالإضافة إلى ذلك، فإن معلمات التحكم في الازدحام عديدة، وتتطلب المفاتيح وبطاقات الشبكة إعدادات معلمات مفصلة ومعقدة للغاية. إن تشغيل آليات التحكم في الازدحام بسرعة كبيرة أو ببطء شديد يمكن أن يؤثر بشكل كبير على أداء أعمال العملاء.

ولمعالجة هذه التحديات، تقدم Spectrum-X، بوظيفتها القوية القابلة للبرمجة للتحكم في الازدحام على منصة الأجهزة BlueField-3، حلاً متقدمًا يتجاوز خوارزمية DCQCN التقليدية. تحقق Spectrum-X تقييمًا دقيقًا لظروف الازدحام على مسار حركة المرور من خلال التعاون الوثيق بين أجهزة BlueField-3 في كل من طرفي المرسل والمستقبل، باستخدام حزم اختبار RTT (وقت الرحلة ذهابًا وإيابًا) ومعلومات القياس عن بعد داخل النطاق من المفاتيح الوسيطة. تتضمن هذه المعلومات، على سبيل المثال لا الحصر، الطوابع الزمنية للحزم التي تمر عبر المفاتيح ومعدلات استخدام المخزن المؤقت للخروج، مما يوفر أساسًا متينًا للتحكم في الازدحام.

دي سي كيو سي إن

من الأهمية بمكان أن قدرات المعالجة عالية الأداء التي تتمتع بها أجهزة BlueField-3 تمكنها من التعامل مع ملايين حزم التحكم في الازدحام في الثانية، وتحقيق التحكم الدقيق في الازدحام استنادًا إلى أحمال عمل مختلفة. وهذا يحقق بشكل فعال أهداف عزل الأداء. بموجب هذه الآلية، يمكن لكل من عبء العمل A وحمل العمل B تحقيق الأداء الأمثل المتوقع دون التأثر سلبًا بازدحام المستأجرين الآخرين.

باختصار، بفضل تكنولوجيا الأجهزة المبتكرة وخوارزميات التحكم في الازدحام الذكية، توفر Spectrum-X حلاً فعالاً ودقيقًا لعزل الأداء لبيئات السحابة متعددة المستأجرين بالذكاء الاصطناعي، مما يساعد كل مستأجر على تحقيق أداء مماثل لأداء البيئة المادية.

تركيبة منتج Spectrum-X

مفتاح SN5600: مفتاح SN5600 هو مفتاح صندوق 2U متقدم يدمج شريحة Spectrum-4 51.2 Tbps الفردية، المصنوعة باستخدام عملية 4nm المتطورة من TSMC وتتضمن 100 مليار ترانزستور.

تركيبة منتج Spectrum-X

تم تجهيز المحول بـ 64 منفذ OSFP بسعة 800 جيجابت ويمكنه دعم التوسعة بمرونة إلى 128 منفذ 400 جيجابت أو 256 منفذ 200 جيجابت، لتلبية احتياجات الشبكة المتنوعة. يصل معدل إعادة توجيه الحزم إلى 33.3 بت في الثانية، مع 512 ألف إدخال لجدول إعادة التوجيه و160 ميجابايت من ذاكرة التخزين المؤقت المشتركة العالمية، مما يضمن إعادة توجيه بمعدل خط حتى للحزم التي يبلغ حجمها 172 بايت. علاوة على ذلك، فإن SN5600 متوافق تمامًا مع أنظمة التشغيل السائدة مثل Cumulus وSonic، وقد تطورت وظائفه باستمرار من خلال سلسلة Spectrum من الجيل الأول إلى الجيل الرابع، مما يوفر للمستخدمين أداءً ومرونة محسّنين للشبكة.

BlueField-3 SuperNIC: BlueField-3 SuperNIC هو مسرع شبكة جديد يعتمد على منصة BlueField-3، وهو مصمم لتشغيل أحمال عمل الذكاء الاصطناعي واسعة النطاق. تم تطويره خصيصًا للحوسبة المتوازية واسعة النطاق التي تتطلب استخدام الشبكة بشكل مكثف، ويوفر اتصال RDMA بسرعة تصل إلى 400 جيجابت/ثانية بين خوادم وحدة معالجة الرسومات عبر إيثرنت متقاربة، مما يحسن كفاءة أحمال عمل الذكاء الاصطناعي القصوى. يمثل BlueField-3 SuperNIC عصرًا جديدًا في الحوسبة السحابية للذكاء الاصطناعي، حيث يوفر بيئات مركز بيانات آمنة متعددة المستأجرين ويضمن اتساق الأداء والعزلة بين الوظائف والمستأجرين.

بلوفيلد-3 سوبرنيك

والجدير بالذكر أن إطار تطوير البرامج القوي DOCA 2.0 يوفر حلولاً برمجية قابلة للتخصيص بدرجة كبيرة، مما يعزز كفاءة النظام بشكل عام.

كابلات LinkX: تركز سلسلة كابلات LinkX على الاتصال عالي السرعة من البداية إلى النهاية بسرعة 800 جيجابت و400 جيجابت، باستخدام تقنية 100 جيجابت PAM4. وتدعم بشكل كامل معايير OSFP وQSFP112 MSA، وتغطي أشكالًا مختلفة من الوحدات الضوئية من DAC وACC إلى متعدد الأوضاع والوضع الفردي، وتلبي احتياجات الأسلاك المتنوعة. يمكن لهذه الكابلات التفاعل بسلاسة مع منافذ OSFP بسرعة 5600 جيجابت في مفتاح SN800، مما يتيح توسعات 1 إلى 2 لمنافذ OSFP بسرعة 400 جيجابت، مما يحسن مرونة وكفاءة اتصال الشبكة.

الملخص ودراسة الحالة

يدمج Spectrum-X، وهو حل إيثرنت AI الرائد عالميًا من NVIDIA، تقنيات الأجهزة والبرامج الرائدة في الصناعة، بهدف إعادة تشكيل نظام الحوسبة AI. وتشمل أبرز مميزاته الأساسية مفتاح Spectrum-4 ASIC عالي الأداء الذي تم تطويره ذاتيًا، ووحدات NIC الذكية DPU من سلسلة BlueField، وكابلات الوحدة الضوئية LinkX باستخدام تقنية Direct Drive. تعمل مكونات الأجهزة هذه معًا على بناء بنية تحتية قوية.

من الناحية التكنولوجية، يشتمل Spectrum-X على العديد من الميزات المبتكرة، مثل آليات التوجيه الديناميكية، وتكنولوجيا التصحيح غير المنظم من الطرف النهائي، وخوارزميات التحكم في الازدحام القابلة للبرمجة من الجيل الجديد، ومنصة تسريع برامج الذكاء الاصطناعي الكاملة DOCA 2.0. لا تعمل هذه الميزات على تحسين أداء الشبكة وكفاءتها فحسب، بل تعمل أيضًا على تحسين استجابة تطبيقات الذكاء الاصطناعي وقدرات المعالجة بشكل كبير، مما يخلق أساسًا حوسبيًا فعالًا وموثوقًا به للمستخدمين في مجال الذكاء الاصطناعي التوليدي.

يهدف هذا الحل المتكامل للغاية إلى سد الفجوة بين شبكات Ethernet التقليدية وInfiniBand، مع التركيز على توفير دعم شبكي مخصص وعالي الأداء لسوق AI Cloud. وهو يلبي المتطلبات الصارمة لتطبيقات الذكاء الاصطناعي فيما يتعلق بالنطاق الترددي العالي وزمن الوصول المنخفض والتوسع المرن، مما يؤدي إلى اتجاهات تقنية Ethernet نحو تحسين السيناريوهات الخاصة بالذكاء الاصطناعي ويهدف إلى تطوير وتوسيع هذه السوق الناشئة والواعدة.

تتجلى المزايا التقنية لـ Spectrum-X في حالة تطبيقها مع مزود الخدمات السحابية الفرنسي Scaleway. تقدم Scaleway، التي تأسست في عام 1999، بنية تحتية عالية الأداء وأكثر من 80 منتجًا وخدمة سحابية لأكثر من 25,000 عميل عالمي، بما في ذلك Mistral AI وAternos وHugging Face وGolem.ai. توفر Scaleway خدمات سحابية شاملة لتطوير حلول مبتكرة ومساعدة المستخدمين على بناء وتوسيع نطاق مشاريع الذكاء الاصطناعي من الصفر.

حاليًا، تقوم Scaleway ببناء سحابة ذكاء اصطناعي إقليمية تقدم بنية تحتية لوحدات معالجة الرسوميات لتدريب نماذج الذكاء الاصطناعي على نطاق واسع واستنتاجها ونشرها. أدى اعتماد وحدات معالجة الرسوميات Hopper من NVIDIA ومنصة شبكة Spectrum-X إلى تعزيز قوة الحوسبة للذكاء الاصطناعي بشكل كبير، وتقصير وقت تدريب الذكاء الاصطناعي، وتسريع تطوير حلول الذكاء الاصطناعي ونشرها ووقت طرحها في السوق، مما يحسن عائد الاستثمار بشكل فعال. يمكن لعملاء Scaleway التوسع من بضع وحدات معالجة رسومية إلى آلاف لتلبية أي حالة استخدام للذكاء الاصطناعي. لا يوفر Spectrum-X الأداء والأمان اللازمين لبيئات الذكاء الاصطناعي متعددة المستأجرين ومتعددة المهام فحسب، بل يحقق أيضًا عزل الأداء من خلال آليات مثل التوجيه الديناميكي والتحكم في الازدحام والمخازن المؤقتة المشتركة العالمية. بالإضافة إلى ذلك، توفر NetQ رؤية عميقة لصحة شبكة الذكاء الاصطناعي مع ميزات مثل عدادات حركة المرور RoCE والأحداث وتنبيهات WJH (ما حدث للتو)، مما يتيح تصور شبكة الذكاء الاصطناعي واستكشاف الأخطاء وإصلاحها والتحقق منها. بفضل الدعم من NVIDIA Air وCumulus Linux، يمكن لـ Scaleway دمج بيئات الشبكة الأصلية للواجهة البرمجية للتطبيقات في سلسلة أدوات DevOps، مما يضمن انتقالات سلسة من النشر إلى العمليات.

اترك تعليق

انتقل إلى الأعلى