أطلقت NVIDIA جهاز Blackwell B200 في شهر مارس من هذا العام، والذي يُعرف بأنه أقوى شريحة ذكاء اصطناعي في العالم. كيف يختلف عن الطرازات السابقة A100 وA800 وH100 وH800؟
بلاكويل بي 200
تطور بنية وحدة معالجة الرسومات NVIDIA
دعونا أولاً نراجع تاريخ تطور قوة الحوسبة لبطاقات تسريع NVIDIA AI:
الجيل الأول من بطاقات تسريع الذكاء الاصطناعي يسمى فولتا، وهي أول بنية أساسية ممتدة من NVIDIA مصممة خصيصًا لحوسبة الذكاء الاصطناعي.
يُطلق على بنية الحوسبة الموترية من الجيل الثاني اسم تورينجوالذي يمثل بطاقة الرسوميات T4.
بنية الحوسبة الموترية من الجيل الثالث Ampere لقد وصلت أخيرًا إلى سلسلة بطاقات الرسومات A100 التي نعرفها أكثر.
بدعم من ترقيات عملية الرقاقة، تضاعف SM للبطاقة الواحدة إلى 108. عدد النوى في SM هو نفس عدد النوى في V100، ولكن من خلال ترقية دائرة وحدة الحوسبة، يمكن للنواة إكمال 256 نواة عائمة - الضرب والتراكم النقطي في كل دورة وهو ضعف ما كان عليه في العمارة القديمة. تمت إضافة وضع الحوسبة ذات الفاصلة العائمة 8 بت (FP8) لتلبية احتياجات التعلم العميق في ذلك الوقت بشكل أفضل. يمكن حساب نواة النقطة العائمة ذات 16 بت كنواتين عائمتين سعة 8 بت، مما يضاعف قوة الحوسبة. انخفض التردد الرئيسي قليلاً إلى 1.41 جيجا هرتز. لذلك، في النهاية، وصلت قوة الحوسبة لبطاقة الرسومات A100 إلى ما يقرب من 5 أضعاف قوة V100، وهي 108*8*256*1.41 جيجا هرتز*2 =624 TFLOPS (FP8).
العمارة أمبير
هوبر معمارية الجيل الرابع هي بطاقة الرسومات من سلسلة H100 التي أصدرتها NVIDIA للتو العام الماضي، وقد تم اعتمادها من قبل OpenAI للتدريب على نماذج اللغات الكبيرة، وتم حظرها بسبب مشكلات في طاقة الحوسبة.
لم يزد عدد SMs (132) لهذه البطاقة الرسومية بشكل ملحوظ مقارنة بالجيل السابق، ولكن بسبب بنية Tensor Core الجديدة وتصميم الذاكرة غير المتزامنة، زاد عدد مضاعفات وتراكمات FP16 التي يمكن إكمالها بواسطة نواة SM واحدة في دورة واحدة تضاعف إلى 512 مرة. تمت زيادة التردد الرئيسي قليلاً إلى 1.83 جيجا هرتز، ووصلت قوة الحوسبة لبطاقة واحدة أخيرًا إلى مستوى مذهل عام 1978 Tera FLOPS (FP8)، وكانت هذه هي المرة الأولى التي تدخل فيها مجال PFLOPS (1.97 Peta FLOPS).
هوبر العمارة
أي نوع من التقدم لديه معمارية الجيل الخامس بلاكويل المحرز على هذا سلم الطاقة الحوسبة؟ وفقًا للبيانات العامة، إذا تم اعتماد وحدة بيانات FP4 الجديدة، فسيكون GB200 قادرًا على تحقيق 20 قوة حوسبة بيتا فلوبس في مهام التفكير. إذا تم استعادته مرة أخرى إلى FP8، يجب أن تحتوي أيضًا على 10 PFLOPS مذهلة، وهو ما يمثل حوالي 5 أضعاف التحسن مقارنة بـ H100.
تظهر البيانات العامة أن التردد الرئيسي لمعالج بلاكويل هو 2.1 جيجا هرتز. وبافتراض عدم تحديث البنية بشكل كبير، سيكون لدى بلاكويل 600 جهاز SM، أي ما يقرب من أربعة أضعاف عدد H100. تمتلك Blackwell قالبين، وبالتالي فإن عدد SMs في بطاقة الرسومات ذات القالب الواحد هو ضعف عدد H100.
يمكن أن نستنتج أنه مع كل جيل من ترقية البنية، تزداد قوة الحوسبة لوحدة معالجة الرسومات الواحدة عدة مرات. ندرج هنا مخطط تقدم قوة الحوسبة من بنية فولتا حتى الوقت الحاضر للرجوع إليه:
الرسم البياني لتقدم الطاقة الحاسوبية
A100 مقابل A800، H100 مقابل H800
لماذا نحتاج إلى A800 عندما يكون لدينا A100؟ دعونا نتحدث أولا عن الخلفية.
في أكتوبر 2022، قدمت الولايات المتحدة لوائح جديدة لتقييد صادرات أشباه الموصلات إلى الصين، بما في ذلك قيود التصدير على رقائق الحوسبة عالية الأداء إلى البر الرئيسي للصين. يتم استخدام مقاييس الأداء لشريحة A100 من NVIDIA كمعيار مقيد، أي أنه يتم تنظيم شرائح الحوسبة عالية الأداء التي تلبي الشرطين التاليين:
(1) معدل نقل عرض النطاق الترددي للإدخال/الإخراج للرقاقة أكبر من أو يساوي 600 جيجا بايت/ثانية؛
(2) مجموع طول البت لكل عملية من "وحدة المعالجة الرقمية، وحدة الحوسبة الأولية" مضروبًا في قوة الحوسبة المحسوبة بواسطة TOPS أكبر من أو يساوي 4800TOPS.
تجعل هذه الظروف من المستحيل تصدير سلسلة رقائق NVIDIA A100/H100 وسلسلة AMD MI200/300 AI إلى الصين.
مقارنة بين وحدات معالجة الرسوميات Nvidia وAMD
من أجل الامتثال للقيود الأمريكية مع تلبية احتياجات العملاء الصينيين، أطلقت NVIDIA A800، وهو بديل لـ A100. واستنادًا إلى المعايير الرسمية، فإن A800 يقلل بشكل أساسي من معدل نقل NVLink من 600 جيجابايت/ثانية من A100 إلى 400 جيجابايت/ثانية، مع معايير أخرى مماثلة بشكل أساسي لـ A100.
في عام 2023، أصدرت NVIDIA الجيل الجديد من وحدة معالجة الرسومات H100 استنادًا إلى عملية 4 نانومتر، مع 80 مليار ترانزستور و18,432 نواة. وبالمثل، أطلقت NVIDIA أيضًا إصدارًا خاصًا من H800 للسوق الصينية.
مقارنة الشريحة
في الواقع، قام A800 بإجراء تعديلات على عرض النطاق الترددي للتوصيل البيني، أي سلسلة N الأبعاد وجزء الارتباط، بانخفاض من 600 جيجا/ثانية من A100 إلى 400 جيجا/ثانية. ومع ذلك، في جوانب أخرى، مثل الدقة المزدوجة، والدقة الفردية، وشبه الدقة، لا يوجد تغيير في قوة حوسبة الذكاء الاصطناعي.
نسبيًا، أجرى H800 تعديلات كبيرة. لم يقم فقط بإجراء تعديلات من حيث الروابط، بل حافظ على 8 روابط NV و 400غ إن عرض النطاق الترددي للربط الثنائي الاتجاه يقلل أيضًا من الحوسبة ذات الدقة المزدوجة إلى الصفر. وهذا أمر بالغ الأهمية لمجال الحوسبة عالية الأداء لأن قوة الحوسبة ذات الدقة المزدوجة لـ FP64 تنخفض مباشرة إلى واحد، مما يعني أنه من الصعب استخدامها.
بعد ذلك، دعونا نلقي نظرة على الشركات التي ستتأثر بشكل كبير بالتعديلات.
ساحة معركة للنماذج الكبيرة: بعد تعديل A800، تم تقليل كفاءة تدريب النماذج الكبيرة. تعمل شريحة A800 SXMM بشكل أساسي على تقليل كفاءة نقل البيانات بين بطاقات وحدة معالجة الرسومات، كما تم تقليل عرض النطاق الترددي بنسبة 33%. بأخذ GPT-3 كمثال، يصل حجمه إلى 175 مليارًا، ويتطلب وحدات معالجة رسوميات متعددة للتدريب المشترك. إذا كان عرض النطاق الترددي غير كاف، سينخفض الأداء بحوالي 40%. بالنظر إلى فعالية A 800 وH 800 من حيث التكلفة، لا يزال المستخدمون الصينيون يفضلون A 800. نظرًا لأن الطرازين A800 وH800 المعدلين قد خفضا كفاءة التدريب، ويحتاجون إلى تبادل بعض البيانات أثناء عملية التدريب بين البطاقات، فإن معدل الإرسال المنخفض يؤدي إلى انخفاض في كفاءتهم.
HPC: يتمتع A800 وA100 بنفس قوة الحوسبة المزدوجة الدقة، لذلك لا يتأثران في مجال الحوسبة العلمية عالية الأداء. ومع ذلك، الشيء المزعج هو أن H800 يقلل بشكل مباشر من قوة الحوسبة ذات الدقة المزدوجة إلى 1 TFLOPS، لذلك لا يُسمح باستخدامه. وهذا له تأثير كبير على مجال الحوسبة الفائقة.
ولذلك فإن التأثير واضح. في مجالات AIGC وHPC، قد تتخلف بعض الشركات الصينية عن الركب من قبل الشركات الأجنبية. وهذا أمر يمكن توقعه، لذلك في بعض الحالات، إذا أردنا أن تحقق قوة الحوسبة أداءً معينًا، فقد يكون الاستثمار أعلى. بالإضافة إلى ذلك، لا يمكننا سوى استعارة شركة صورية من الخارج وإنشاء فرع للقيام بمهمة تدريب النماذج الكبيرة في الخارج. نحتاج فقط إلى استخدام نتائج التدريب في الصين. ومع ذلك، فإن هذا ليس سوى حل مؤقت، خاصة عند مواجهة خطر مغادرة البيانات للبلاد.
الملخص
وكما نعلم جميعًا، تفرض الولايات المتحدة قيودًا صارمة بشكل متزايد على الرقائق الصينية، بما في ذلك وحدات معالجة الرسومات. في عام 2022، حظرت الولايات المتحدة شرائح GPU عالية الأداء، بما في ذلك A100 وH100 وما إلى ذلك، وفي عام 2023 حظرت شرائح A800 وH800 وL40 وL40S وحتى بطاقة رسومات سطح المكتب RTX 4090.
ولذلك، تعمل شركات التكنولوجيا الصينية أيضًا على تعديل استراتيجياتها الصناعية بشكل نشط للاستعداد لتقليل استخدام شرائح Nvidia في المستقبل، وبالتالي تجنب التكلفة الهائلة لتعديل التكنولوجيا باستمرار للتكيف مع الرقائق الجديدة. وقام بائعو الخدمات السحابية مثل علي بابا وتينسنت بتحويل بعض طلبات أشباه الموصلات المتقدمة إلى شركات محلية مثل هواوي واعتمدوا بشكل أكبر على رقائقهم المطورة داخليا. كما اتخذت شركات مثل Baidu وByteDance إجراءات مماثلة. من الواضح أن الشركات الصينية اختارت استكشاف الطريق للمضي قدمًا من خلال نهج ثلاثي المحاور: NVIDIA + رقائق محلية الصنع + مطورة ذاتيًا ".
المنتجات ذات الصلة:
- NVIDIA MMA4Z00-NS400 متوافق مع 400G OSFP SR4 مسطح علوي PAM4 850 نانومتر 30 متر على OM3 / 50m على وحدة الإرسال والاستقبال البصرية OM4 MTP / MPO-12 Multimode FEC $650.00
- NVIDIA MMA4Z00-NS-FLT متوافق مع 800Gb / s ثنائي المنفذ OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 MMF وحدة الإرسال والاستقبال البصرية $850.00
- NVIDIA MMA4Z00-NS متوافق مع 800Gb / s ثنائي المنافذ OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 MMF وحدة الإرسال والاستقبال الضوئية $750.00
- NVIDIA MMS4X00-NM متوافق مع 800Gb / s ثنائي المنفذ OSFP 2x400G PAM4 1310nm 500m DOM Dual MTP / MPO-12 SMF وحدة الإرسال والاستقبال البصرية $1100.00
- NVIDIA MMS4X00-NM-FLT متوافق مع 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Dual MTP / MPO-12 SMF وحدة الإرسال والاستقبال البصرية $1200.00
- NVIDIA MMS4X00-NS400 متوافق 400G OSFP DR4 Flat Top PAM4 1310nm MTP / MPO-12m SMF FEC وحدة الإرسال والاستقبال البصرية $800.00
- Mellanox MMA1T00-HS متوافق 200G Infiniband HDR QSFP56 SR4 850nm 100m MPO-12 APC OM3/OM4 FEC PAM4 وحدة الإرسال والاستقبال الضوئية $200.00
- NVIDIA MFP7E10-N010 متوافق مع 10 متر (33 قدم) 8 ألياف فقدان إدخال منخفض أنثى إلى أنثى MPO كابل جذع قطبية B APC إلى APC LSZH متعدد الأوضاع OM3 50/125 $47.00
- NVIDIA MCP7Y00-N003-FLT متوافق مع 3m (10ft) 800G ثنائي المنفذ OSFP إلى 2x400G Flat Top OSFP InfiniBand NDR Breakout DAC $275.00
- NVIDIA MCP7Y70-H002 متوافق مع 2 متر (7 قدم) 400 جيجا منفذ مزدوج 2x200G OSFP إلى 4x100G QSFP56 كابل نحاسي متصل مباشرًا بالاختراق السلبي $155.00
- NVIDIA MCA4J80-N003-FTF متوافق مع 3m (10ft) 800G ثنائي المنفذ 2x400G OSFP إلى 2x400G OSFP InfiniBand NDR كابل نحاسي نشط، جزء علوي مسطح من أحد الطرفين وجزء علوي زعانف من الطرف الآخر $600.00
- NVIDIA MCP7Y10-N002 متوافق مع 2 متر (7 قدم) 800 جيجا InfiniBand NDR ثنائي المنفذ OSFP إلى 2x400 جيجا QSFP112 Breakout DAC $200.00