خوادم الذكاء الاصطناعي: تقنية شريحة الربط البيني للواجهة

وفقًا لبيانات TrendForce، بلغت شحنات خوادم الذكاء الاصطناعي حوالي 130,000 ألف وحدة، وهو ما يمثل حوالي 1% من شحنات الخوادم العالمية. وبالتطلع إلى عام 2023، أطلقت Microsoft وMeta وBaidu وByteDance على التوالي منتجات وخدمات تعتمد على الذكاء الاصطناعي التوليدي وزادت الطلبات بشكل نشط. ومن المقدر أن يصل معدل النمو السنوي لشحنات خوادم الذكاء الاصطناعي في عام 2023 إلى 15.4%، ومع الطلب المستقبلي على ChatGPT لخوادم الذكاء الاصطناعي، من المتوقع أن تنمو خوادم الذكاء الاصطناعي بمعدل سنوي مركب قدره 12.2% من عام 2023 إلى 2027. .

تم إطلاق DGX H100 في عام 2022 وهو أحدث إصدار من نظام DGX من NVIDIA، فضلاً عن كونه أساس NVIDIA DGX SuperPOD. تم تجهيز خوادم DXG بـ 8 وحدات معالجة رسومية H100، و640 مليار ترانزستور، وتوفر أداء ذكاء اصطناعي أعلى بست مرات من الجيل السابق بدقة FP6 الجديدة، مما يوفر 8 جيجابايت/ثانية من عرض النطاق الترددي.

مخطط معماري لربط الرقاقة الداخلية لخادم NVIDIA DGX H100

المصدر: NVIDIA

داخل خادم DGX H100، الكتل الزرقاء هي بطاقات شبكة IP، والتي يمكن أن تعمل كبطاقات شبكة وتلعب أيضًا دور توسيع PCIe Switch، لتصبح الجسر بين وحدة المعالجة المركزية ووحدة معالجة الرسومات (H100). ويستخدم معيار PCle 5.0 داخليًا. بالإضافة إلى ذلك، تم تصنيع CX7 إلى بطاقتين على شكل شرائح بطاقة شبكة لتوصيلها بالخادم، وتتكون كل بطاقة من 2 شرائح CX4 ومخرجات 7 منافذ وحدة بصرية OSFP بسرعة 2 جيجا.

يتم تحقيق الاتصال البيني بين وحدات معالجة الرسومات (H100) بشكل أساسي عن طريق شرائح NV Switch. تعمل كل وحدة معالجة رسومات في DGXH100 على تمديد 18 رابط NVLinks إلى الخارج، مع عرض نطاق ترددي ثنائي الاتجاه يبلغ 50 جيجابايت/ثانية لكل رابط، بإجمالي 18*50 جيجابايت/ثانية = 900 جيجابايت/ثانية عرض نطاق ثنائي الاتجاه، مقسم إلى 4 محولات NV مدمجة، بحيث يتوافق كل محول NV مع 4-5 وحدات بصرية OSFP (إجمالي 18). كل الوحدة الضوئية OSFP يستخدم 8 قنوات ضوئية، بمعدل نقل 100 جيجابت في الثانية لكل قناة، وبذلك يصل المعدل الإجمالي 800Gbps، مما يتيح نقل البيانات بسرعة عالية.

التوصيل البيني للمكونات مثل وحدة المعالجة المركزية ووحدة معالجة الرسومات: محول PCIE وشريحة المؤقت

يستخدم PCIe Switch، المعروف أيضًا باسم محول PCIe أو محور PCIe، بشكل أساسي لتوصيل أجهزة PCIe، وبروتوكول الاتصال الخاص بشريحة PCIe Switch وجهازها هو PCIe. نظرًا لأن اتصال رابط PCIe هو نوع من نقل البيانات من طرف إلى طرف، يحتاج Switch إلى توفير إمكانات التوسع أو التجميع، للسماح لمزيد من الأجهزة بالاتصال بمنفذ PCle، لحل مشكلة عدم كفاية رقم قناة PCIe. حاليًا، لم يتم استخدام PCIe Switch على نطاق واسع في أنظمة التخزين التقليدية فحسب، بل تم أيضًا تعميمه تدريجيًا في بعض منصات الخوادم، لتحسين سرعة نقل البيانات.

ترقية تقنية ناقل PCIe وزيادة سرعة تبديل PCIe لكل جيل. ناقل PCIe هو بديل تسلسلي عالي السرعة لناقل PCI. في عام 2001، أعلنت شركة Intel عن تقنية I/O من الجيل الثالث لتحل محل ناقل PCI، والتي تسمى "3GIO". في عام 2002، تمت إعادة تسمية هذه التقنية رسميًا باسم "PCI Express" بعد مراجعتها من قبل مجموعة PCI Special Interest Group (PCI-SIG)، مما يمثل ولادة PCIe. في عام 2003، تم إصدار PCIe 1.0 رسميًا، والذي يدعم معدل نقل يبلغ 250 ميجابايت/ثانية لكل قناة ومعدل نقل إجمالي يبلغ 2.5 GT/s. في عام 2007، أعلنت PCI-SIG عن إطلاق مواصفات PCI Express Base 2.0. بناءً على PCIe 1.0، تمت مضاعفة معدل النقل الإجمالي إلى 5 GT/s، وزاد معدل النقل لكل قناة من 250 ميجابايت/ثانية إلى 500 ميجابايت/ثانية. في عام 2022، أصدرت PCI-SIG رسميًا مواصفات PCIe 6.0، مما أدى إلى زيادة النطاق الترددي الإجمالي إلى 64 GT/s.

PCle 1.0 إلى 6.0

المصدر: ويكيبيديا

ومع تزايد تطبيق PCIe في الخوادم، ارتفع أيضًا الطلب في السوق على PCIe Switch. وفقًا لإحصائيات وتوقعات QYResearch، وصلت مبيعات سوق شرائح PCIe العالمية إلى 790 مليون دولار أمريكي في عام 2021، ومن المتوقع أن تصل إلى 1.8 مليار دولار أمريكي في عام 2028، بمعدل نمو سنوي مركب (CAGR) يبلغ 11.9%.

تبديل PCle

المصدر: Asmedia وBroadCom وMicrochip

تعد الصين أكبر سوق لمحول PCIe. مع تزايد الطلب على تخزين البيانات الضخمة ونقلها في الخوادم، هناك حاجة إلى عدد كبير من حلول الربط البيني عالية السرعة لتحقيق نقل هائل للبيانات في مجالات البيانات الضخمة والحوسبة السحابية والذكاء الاصطناعي وما إلى ذلك. الحل، PCIe Switch لديه طلب كبير في السوق الصينية.

في خوادم الذكاء الاصطناعي، يلزم وجود شريحة Retimer واحدة على الأقل لضمان جودة الإشارة عند توصيل وحدة معالجة الرسومات ووحدة المعالجة المركزية. على وجه التحديد، ستقوم العديد من خوادم الذكاء الاصطناعي بتكوين شرائح Retimer متعددة، مثل Astera Labs، التي تقوم بتكوين أربع شرائح Retimer في مسرع الذكاء الاصطناعي.

مؤقت الذكاء الاصطناعي

المصدر: مختبرات أستيرا

يعد PCIe Retimer سوقًا في المحيط الأزرق يضم ثلاث شركات مصنعة رائدة والعديد من المنافسين المحتملين. حاليًا، تعد Parade Technologies وAstera Labs وMontage Technology هم البائعين الثلاثة الرئيسيين في سوق المحيط الأزرق PCIe Retimer، ويحتلون المركز المهيمن. من بينها، قامت شركة Montage Technology بنشر PCIe في وقت سابق وهي المورد الوحيد في الصين الذي يمكنه إنتاج PCIe 4.0 Retimer بكميات كبيرة، ويتقدم تطوير PCIe 5.0 Retimer بسلاسة.

PCle

المصدر: Montage Technology وAstera Labs وParade Technologies

بالإضافة إلى ذلك، تشارك شركات تصنيع الرقائق بما في ذلك Renesas وTI وMicrochip Technology وغيرها بنشاط في تطوير منتج PCIe Retimer. وفقًا لمعلومات الموقع الرسمي، يمكن لشركة Renesas توفير منتجين PCIe 3.0 Retimer، وهما 89HT0816AP و89HT0832P؛ يمكن لشركة TI توفير PCIe 16 Retimer بسرعة 8 جيجابت في الثانية و4.0 قنوات - DS160PT801؛ وبالمثل، أصدرت Microchip Technology سلسلة XpressConnect من رقائق Retimer في نوفمبر 2020، والتي يمكنها دعم معدل 5.0GT/s لـ PCIe 32.

اتصال GPU-GPU: NVLink، NVSwitch

يهتم مصنعو الرقائق العالميون بالتقنيات ذات الصلة بالواجهات عالية السرعة. بالإضافة إلى NVLink من NVIDIA، توفر Infinity Fabric من AMD وCXL (Compute Express Link) من Intel أيضًا حلولاً للاتصال البيني عالي السرعة داخل الخوادم.

لقد أثار NVlink الذي يتم تحديثه باستمرار ثورة في تكنولوجيا الاتصال البيني عالي السرعة. NVLink هي تقنية ربط بيني عالية السرعة تم تطويرها بواسطة NVIDIA، والتي تهدف إلى تسريع سرعة نقل البيانات بين وحدة المعالجة المركزية ووحدة معالجة الرسومات، ووحدة معالجة الرسومات ووحدة معالجة الرسومات، وتحسين أداء النظام. من عام 2016 إلى عام 2022، تم تكرار NVLink إلى الجيل الرابع. في عام 2016، أصدرت NVIDIA شريحة الواجهة الجديدة عالية السرعة – NVLink، التي تحملها وحدة معالجة الرسوميات Pascal GP100. هذا هو الجيل الأول من NVLink. يستخدم NVLink تقنية التوصيل البيني للإشارات عالية السرعة (NVHS)، والتي تُستخدم بشكل أساسي لنقل الإشارات بين وحدة معالجة الرسومات (GPU) ووحدة معالجة الرسومات (GPU)، ووحدة معالجة الرسومات (GPU) ووحدة المعالجة المركزية (CPU). تنقل وحدات معالجة الرسوميات الإشارات الكهربائية ذات المعاوقة التفاضلية في نموذج ترميز NRZ (عدم العودة إلى الصفر). يمكن للوصلة الفردية من الجيل الأول من NVLink تحقيق 40 جيجابايت/ثانية من عرض النطاق الترددي ثنائي الاتجاه، ويمكن لشريحة واحدة أن تدعم أربعة روابط، أي 160 جيجابايت/ثانية من إجمالي عرض النطاق الترددي ثنائي الاتجاه.

مقارنة بين أربعة جنرال nvlink

المصدر: NVIDIA

تقنية ان في لينك وقد خضع للعديد من التكرارات والتحديثات، مما أثار موجة من الابتكار في تكنولوجيا الربط البيني عالي السرعة. في عام 2017، تم إصدار الجيل الثاني من NVLink استنادًا إلى بنية Volta، والذي يمكنه تحقيق 50 جيجابايت/ثانية من عرض النطاق الترددي ثنائي الاتجاه لكل رابط، ودعم ستة روابط لكل شريحة، أي 300 جيجابايت/ثانية من إجمالي عرض النطاق الترددي ثنائي الاتجاه. في عام 2020، تم إصدار الجيل الثالث من NVLink استنادًا إلى بنية Ampere، والذي يمكنه تحقيق 50 جيجابايت/ثانية من عرض النطاق الترددي ثنائي الاتجاه لكل رابط، ودعم 12 رابطًا لكل شريحة، أي 600 جيجابايت/ثانية من إجمالي عرض النطاق الترددي ثنائي الاتجاه. في عام 2022، تم إصدار الجيل الرابع من NVLink المعتمد على بنية Hopper، والذي غير إشارة الإرسال إلى إشارة كهربائية معدلة PAM4، ويمكنه تحقيق 50 جيجابايت/ثانية من عرض النطاق الترددي ثنائي الاتجاه لكل رابط، ودعم 18 رابطًا لكل شريحة، أي، 900 جيجابايت/ثانية من إجمالي عرض النطاق الترددي ثنائي الاتجاه.

في عام 2018، أصدرت NVDIA الجيل الأول من NVSwitch، والذي قدم حلاً لتحسين عرض النطاق الترددي، وتقليل زمن الوصول، وتمكين الاتصال بين وحدات معالجة الرسومات المتعددة داخل الخادم. تم تصنيع الجيل الأول من NVSwitch باستخدام عملية FinFET ذات 12 نانومتر من TSMC وكان يحتوي على 18 واجهة NVLink 2.0. يمكن للخادم أن يدعم 16 وحدة معالجة رسوميات V100 من خلال 12 محول NVSwitch، مما يحقق أعلى سرعة اتصال مع NVLink.

مقارنة بين ثلاثة أجيال من أداء NV Switch

المصدر: NVIDIA

حاليًا، تم تكرار NVSwitch إلى الجيل الثالث. تم تصميم الجيل الثالث من NVSwitch باستخدام عملية TSMC's 4N، وتحتوي كل شريحة NVSwitch على 64 منفذ NVLink 4.0. يمكن أن تصل سرعة الاتصال بين وحدات معالجة الرسومات إلى 900 جيجابايت/ثانية، ويمكن استخدام وحدات معالجة الرسومات المتصلة بواسطة NVLink Switch كمسرع واحد عالي الأداء يتمتع بقدرات التعلم العميق.

يؤدي الاتصال البيني عالي السرعة بين وحدة المعالجة المركزية والذاكرة الديناميكية (DRAM) إلى زيادة الطلب على شرائح واجهة الذاكرة.

الأنواع الرئيسية لوحدات ذاكرة الخادم هي RDIMM وLRDIMM، والتي لها متطلبات أعلى للاستقرار وتصحيح الأخطاء واستهلاك منخفض للطاقة مقارنة بالأنواع الأخرى من وحدات الذاكرة. شريحة واجهة الذاكرة هي الجهاز المنطقي الأساسي لوحدة ذاكرة الخادم وهي المسار الضروري لوحدة المعالجة المركزية للخادم للوصول إلى بيانات الذاكرة. وتتمثل وظيفتها الرئيسية في تحسين سرعة واستقرار الوصول إلى بيانات الذاكرة وتلبية الاحتياجات المتزايدة عالية الأداء والسعة الكبيرة لوحدة المعالجة المركزية للخادم لوحدات الذاكرة.

تصنيف وحدة الذاكرة والتطبيقات النهائية

المصدر: CSDN

تستمر سرعة شرائح واجهة الذاكرة في الزيادة من DDR4 إلى DDR5. منذ عام 2016، أصبحت DDR4 هي التقنية السائدة في سوق الذاكرة. لتحقيق سرعة نقل أعلى ودعم سعة ذاكرة أكبر، قامت منظمة JEDEC بتحديث وتحسين المواصفات الفنية لرقائق واجهة الذاكرة DDR4. في جيل DDR4، من Gen1.0 وGen1.5 وGen2.0 إلى Gen2plus، تزايدت باستمرار أعلى سرعة نقل يدعمها كل جيل فرعي من شرائح واجهة الذاكرة، وكان منتج الجيل الفرعي الأخير من DDR4، يدعم Gen2plus أقصى سرعة نقل تصل إلى 3200MT/s. مع استمرار منظمة JEDEC في تحسين تعريف مواصفات منتجات واجهة الذاكرة DDR5، تحل تقنية الذاكرة DDR5 محل تقنية الذاكرة DDR4 تدريجيًا.

حاليًا، خططت رقائق واجهة الذاكرة DDR5 لثلاثة أجيال فرعية، بمعدلات دعم تبلغ 4800MT/s، و5600MT/s، و6400MT/s على التوالي. تتوقع الصناعة أنه قد يكون هناك جيل أو جيلين فرعيين آخرين في المستقبل.

تنقسم شرائح واجهة الذاكرة إلى نوعين حسب وظائفها، وهما المخزن المؤقت للتسجيل (RCD) والمخزن المؤقت للبيانات (DB). يتم استخدام RCD لتخزين إشارات العنوان والأوامر والتحكم مؤقتًا من وحدة التحكم في الذاكرة، ويتم استخدام DB لتخزين إشارات البيانات مؤقتًا من وحدة التحكم في الذاكرة أو حبيبات الذاكرة.

DDR4 ، DDR5

المصدر: تكنولوجيا المونتاج

توفر ترقية وحدات الذاكرة DDR5 فرصًا جديدة لرقائق واجهة الذاكرة والرقائق الداعمة للوحدات. وفي عام 2016، بلغ حجم سوق شرائح واجهة الذاكرة العالمية حوالي 280 مليون دولار أمريكي، ووصل إلى حوالي 570 مليون دولار أمريكي في عام 2018، بمعدل نمو سنوي قدره 40% على مدى ثلاث سنوات. ستؤدي ترقية DDR5 إلى رفع حجم شرائح واجهة الذاكرة في السوق إلى مستوى جديد. بالمقارنة مع DDR4، نظرًا لارتفاع معدل الدعم والتصميم الأكثر تعقيدًا لـ DDR5، فإن السعر المبدئي للجيل الفرعي الأول من رقائق واجهة الذاكرة DDR5 أعلى من سعر رقائق واجهة الذاكرة DDR4. وفي الوقت نفسه، مع زيادة معدل اختراق ذاكرة DDR5 في الخوادم وأجهزة الكمبيوتر تدريجيًا، من المتوقع أن يحقق حجم سوق رقائق واجهة الذاكرة ذات الصلة بـ DDR5 نموًا سريعًا.

تواجه صناعة شرائح واجهة الذاكرة حواجز عالية، وقد تم تشكيل نمط ثلاثي الأرجل. تعد رقائق واجهة الذاكرة صناعة كثيفة الاستخدام للتكنولوجيا، ولا يمكن استخدامها إلا على نطاق واسع بعد التحقق منها بدقة من قبل الشركات المصنعة لوحدة المعالجة المركزية والذاكرة وتصنيع المعدات الأصلية في جميع الجوانب، ومن الصعب إدخال لاعبين جدد. ومع تزايد الصعوبة التقنية، انخفض عدد مشغلات شرائح واجهة الذاكرة من أكثر من 10 في جيل DDR2 إلى 3 فقط في جيل DDR4. لقد تم تطهير الصناعة، وتم تشكيل نمط ثلاثي الأرجل. في جيل DDR5، لا يوجد سوى ثلاثة موردين في العالم يمكنهم توفير منتجات منتجة بكميات كبيرة من الجيل الفرعي الأول من DDR5، وهم Montage Technology وRenesas Electronics (IDT) وRambus.

اترك تعليق

انتقل إلى الأعلى