نظرة عامة
لا شك أن الذكاء الاصطناعي أصبح موضوعًا مركزيًا في مجال تكنولوجيا المعلومات، حيث استحوذ على اهتمام واسع النطاق بوتيرة غير مسبوقة على مدى العقود الثلاثة الماضية. ويدعم هذا التأكيد استطلاع أجرته مجموعة Futurum Group وشمل أكثر من 100 من مسؤولي المعلومات الرئيسيين من شركات Fortune 500 وGlobal 2000. ووفقًا للنتائج، فإن ما يقرب من 80٪ من المستجيبين يديرون حاليًا برامج تجريبية للذكاء الاصطناعي. وعلاوة على ذلك، حددت الدراسة أن أكثر من 50٪ من قادة تكنولوجيا المعلومات هؤلاء ينظرون إلى تنفيذ التقنيات الناشئة، مثل الذكاء الاصطناعي، باعتباره التحدي الأكثر أهمية بالنسبة لهم. بالإضافة إلى ذلك، فإن التحديث والابتكار وتبني الذكاء الاصطناعي يحتل مرتبة ثابتة بين العوامل الخمسة الأولى التي تؤثر على قرارات شراء تكنولوجيا المعلومات.

تتعمق هذه المقالة في تحليل متعمق لمسرع الذكاء الاصطناعي Intel® Gaudi® 2 وتأثيره المحتمل على المؤسسات. تقارن الدراسة بين أداء مسرع الذكاء الاصطناعي Intel® Gaudi® 3 وأداء منافس رائد أثناء اختبارات عبء العمل الاستدلالي. ركزت هذه الاختبارات على نموذجين مختلفين للغة الكبيرة (LLMs) من نوع Llama 3.1. لتزويد المسؤولين التنفيذيين في مجال تكنولوجيا المعلومات والأعمال برؤى عملية وقابلة للتنفيذ، تم تطوير منصة اختبار ذكاء اصطناعي متخصصة لتشغيل وقياس أداء عبء عمل الذكاء الاصطناعي. تم إجراء هذا البحث بالتعاون مع Kamiwaza (https://www.kamiwaza.ai/)، وهي منصة تجارية لاستنتاج الذكاء الاصطناعي. معًا، صممنا مجموعة اختبار ذكاء اصطناعي تستفيد من مجموعة Kamiwaza، القادرة على قياس أداء الاستدلال بدقة لنماذج اللغة الكبيرة (LLMs) عبر منصات الأجهزة والبرامج المختلفة.
النتائج الرئيسية:
- في سلسلة من اختبارات الاستدلال LLM، أظهر Intel Gaudi 3 أداءً مماثلاً لـ Nvidia H100.
- يختلف أداء Intel Gaudi 3 مقارنة بـ H100، حيث يتراوح من 15% أقل إلى 30% أعلى، اعتمادًا على السيناريو.
- تفوقت Intel Gaudi 3 على H100 في جلسات الاستدلال ذات المدخلات الصغيرة والمخرجات الكبيرة، في حين تفوقت Nvidia في الجلسات التي تنطوي على مدخلات كبيرة ومخرجات صغيرة.
- عند احتساب التكلفة، حققت Intel Gaudi 3 عبء عمل أعلى لكل دولار مقارنةً بـ Nvidia H100، مع ميزة تتراوح من 10% إلى 2.5x.
المشهد الخاص بالذكاء الاصطناعي في المؤسسات
على الرغم من أن الذكاء الاصطناعي أصبح نقطة محورية للعديد من الشركات على مدار العام الماضي، إلا أن غالبية الشركات لا تزال في المراحل المبكرة من تطبيق الذكاء الاصطناعي. ومع شروع الشركات في مشاريع تجريبية، فإنها تركز في المقام الأول على الاستفادة من بيانات المؤسسة ومصادر المعرفة الأخرى لتعزيز نماذج اللغة الأساسية الكبيرة (LLMs) الموجودة لبيئات الإنتاج.
تظل المخاوف بشأن خصوصية البيانات والحوكمة كبيرة، وهذا أحد الأسباب التي تجعل العديد من الشركات، بالإضافة إلى تبني حلول الحوسبة السحابية، تستكشف نشر أدوات الذكاء الاصطناعي محليًا. إن الحفاظ على السيطرة على بيانات التدريب ومجموعات بيانات الاستدلال وقت التشغيل، فضلاً عن إنشاء أطر حوكمة فعالة وممارسات الذكاء الاصطناعي الأخلاقية، يتطلب سيطرة أكبر على البيانات وسلاسل الأدوات والبنية الأساسية. في حين يمكن تحقيق استنتاجات جلسة التفاعل الفردية بأقل قدر من الأجهزة، فإن عمليات النشر واسعة النطاق تتطلب عادةً مسرعات الأجهزة، خاصة عند استخدام تقنيات مثل التوليد المعزز بالاسترجاع (RAG). لذلك، يجب على الشركات تقييم سعر وأداء أحمال عمل الاستدلال بعناية عند اختيار مسرعات الذكاء الاصطناعي، حيث يؤثر هذا بشكل مباشر على العائد الإجمالي على الاستثمار (ROI) بمجرد وصول تطبيقات الذكاء الاصطناعي إلى مرحلة الإنتاج.
ماجستير في الاستدلال
تُعرف عملية توليد نتائج مفيدة من نماذج التدريب باستخدام LLMs باسم الاستدلال. يتكون استدلال LLM عادةً من مرحلتين: التعبئة المسبقة وفك التشفير. تعمل هاتان المرحلتان جنبًا إلى جنب لتوليد استجابات لمطالبات الإدخال.
أولاً، تحول مرحلة التعبئة المسبقة النص إلى تمثيلات الذكاء الاصطناعي، المعروفة باسم الرموز. تحدث عملية الترميز هذه عادةً على وحدة المعالجة المركزية، ثم تُرسل الرموز إلى مسرع الذكاء الاصطناعي لتوليد الناتج وأداء فك التشفير. يستمر النموذج في تنفيذ هذه العملية بشكل متكرر، حيث يؤثر كل رمز جديد على توليد الرمز التالي. في نهاية المطاف، في نهاية هذه العملية، يتم تحويل التسلسل الناتج مرة أخرى من الرموز إلى نص قابل للقراءة. الأدوات الرئيسية المستخدمة في هذه العملية هي مجموعات برامج متخصصة مُحسَّنة للاستدلال. تتضمن بعض الأمثلة النموذجية مشروع vLLM مفتوح المصدر، وTGI من Hugging Face، وإصدارات متخصصة لمسرعات الذكاء الاصطناعي المحددة. تقدم Nvidia مجموعة استدلال مُحسَّنة تسمى TensorRT-LLM، بينما تقدم Intel مجموعة برامج مُحسَّنة تُعرف باسم Optimum Habana.
ربط حالات الاختبار بتطبيقات المؤسسة
تركز اختباراتنا على أربع مجموعات أو أنماط مختلفة من عبء العمل تتميز بحجم رموز الإدخال والإخراج. وبشكل عام، تهدف هذه المجموعات إلى محاكاة سيناريوهات مختلفة في العالم الحقيقي قد تواجهها الشركات أثناء عمليات النشر في الإنتاج. وفي الاستخدام الفعلي، قد لا يتوافق حجم رموز الإدخال والإخراج بدقة مع أي مجموعة واحدة، حيث أن نطاقها واسع للغاية. ومع ذلك، تم تصميم هذه المجموعات الأربع لتوضيح السيناريوهات المحتملة.
عادةً، تتوافق سيناريوهات الإدخال ذات الرموز الصغيرة مع أوامر الإدخال القصيرة التي تفتقر إلى سياق واسع، مثل الدردشة التفاعلية. يضيف استخدام التوليد المعزز بالاسترجاع سياقًا ورموزًا كبيرة إلى الإدخال، مما يؤدي إلى رموز إدخال أطول ورموز إخراج أقصر أثناء جلسات الدردشة. في التحسين التكراري لإنشاء المحتوى أو كتابة المستندات/الرموز باستخدام التوليد المعزز بالاسترجاع، يتم إنشاء أحمال العمل باستخدام رموز إدخال وإخراج طويلة. يشير تحليلنا للسيناريوهات الشائعة إلى أن الجمع بين المدخلات والمخرجات ذات السياق الطويل هو السيناريو الأكثر ترجيحًا، في حين أن جلسات الدردشة بدون التوليد المعزز بالاسترجاع هي الأقل ترجيحًا. يمثل السيناريوهان المتبقيان حالات استخدام أخرى محتملة. تستند النسب المئوية المقدرة إلى المناقشات مع العملاء وتجربتنا الخاصة مع LLMs.

الجدول 1:أنواع عبء العمل الاستدلالي ونسبها
كما هو موضح في الجدول 1، فإن السيناريوهين اللذين يتمتعان بإخراج أطول يشكلان معًا 65% من إجمالي الاستخدام، في حين يمثل السيناريوهان اللذان يتمتعان بإخراج أقصر نسبة 35% المتبقية. وهذا التمييز بالغ الأهمية حيث يعمل Intel Gaudi 3 بشكل أفضل من Nvidia H100 عند التعامل مع أحمال العمل ذات رموز الإخراج الأكبر. وعلاوة على ذلك، بالنسبة لأحمال العمل الأكثر شيوعًا في المؤسسات، يوضح مسرع Gaudi 3 مزايا الأداء مقارنةً بـ Nvidia H100. بعد ذلك، سنعرض النتائج التفصيلية لهذه الأحمال ونقدم مقارنات السعر/الأداء المقابلة.
مراجعة اختبار الاستدلال بالذكاء الاصطناعي
لمعالجة بيانات الإدخال بكفاءة وإرسالها إلى مسرعات الذكاء الاصطناعي، تقوم برامج الاستدلال بتحويل بيانات الإدخال إلى رموز ثم إرسال هذه الرموز على دفعات لتحسين معدل معالجة الرموز الإجمالي.
كما ذكرنا سابقًا، تتوفر العديد من مجموعات الاستدلال الخاصة بـ LLM. تتضمن أطر الاستدلال التي قمنا بمسحها ما يلي:
- TGI: مناسب لـ H100 وGaudi 3
- vLLM: مناسب لـ H100 وGaudi 3
- Nvidia H100: مجموعة استدلالات TensorRT-LLM من Nvidia
- Intel Gaudi 3: مجموعة الاستدلالات المثالية لـ Habana
ملاحظة: لقد اخترنا الحل الأمثل لكل مسرع. لاختبارات Nvidia H100، استخدمنا TensorRT-LLM، ولاختبارات Intel Gaudi 3، استخدمنا Optimum Habana.

كما هو موضح في الشكل 1، يمكن لمجموعة اختبار Signal65/Kamiwaza AI اختبار أداء الاستدلال لنماذج LLM المختلفة على وحدات معالجة رسومية متعددة ودعم عقد متعددة بشكل اختياري. الأجهزة المستخدمة للاستدلال غير ذات صلة عند إرسال الطلبات. هذه الأطر هي مجرد أدوات أساسية. توفر Signal65/Kamiwaza Bench أدوات أتمتة وميزات معايرة، وتدعم عملية المعايرة بأكملها من تكوين التجربة الدفعية إلى التنفيذ الآلي والتسجيل والتسجيل والتصور.
تضمنت منهجية الاختبار لدينا مقارنة أداء الاستدلال لمسرعين للذكاء الاصطناعي باستخدام نموذجين مختلفين مفتوحي المصدر للغة كبيرة. لاختبارات مسرع الذكاء الاصطناعي الفردي، اخترنا نموذج Llama 3.1 8B، والذي يمكن أن يتناسب تمامًا مع سعة ذاكرة مسرع واحد بسعة 48 جيجابايت أو أكثر. للاستفادة الكاملة من نظام خادم ثماني البطاقات، استخدمنا نموذج Llama 3.1 70B وقمنا بتوزيعه على ثمانية مسرعات أثناء اختبارات الاستدلال. أجريت جميع الاستدلالات في وضع الدفعات لزيادة إنتاجية المسرع إلى أقصى حد. أجريت اختباراتنا في الغالب تحت أحجام بيانات "الوزن الكامل" أو FP16، دون استخدام تقنيات التكميم. ركزنا على تكرار السيناريوهات الشائعة واختبرنا بشكل أساسي نماذج الوزن الكامل لأن هذه النماذج توفر عادةً نتائج أفضل بكثير، أي دقة أعلى، مقارنة بالنماذج التي تستخدم أحجام بيانات كمية. بالنسبة لنماذج 8B و70B، اختبرنا أحجام رموز الإدخال والإخراج المختلفة. من أجل التبسيط، نقدم أربع مجموعات فقط. في جميع الحالات، يتم التعبير عن أحجام الإدخال والإخراج بتنسيق (الإدخال/الإخراج).
تحليل التكاليف
لتوفير مقارنة بين السعر والأداء، قمنا بجمع بيانات التسعير لحلين متنافسين.
أولاً، حصلنا على عروض أسعار التكوين من بائع التجزئة المتاح للعامة Thinkmate.com، والذي قدم بيانات تسعير مفصلة لخادم GPU مزود بـ 8 وحدات معالجة رسومية Nvidia H100. تظهر المعلومات المحددة في الجدول 2. بالإضافة إلى ذلك، استخدمنا بيانات التسعير الصادرة عن Intel لمسرع Gaudi 3، والتي أفادت مصادر متعددة بأنها "سعر التجزئة المقترح 125,000 دولار". لقد أنشأنا سعر النظام بناءً على سعر النظام الأساسي لنظام Gaudi 3-XH20 (32,613.22 دولارًا)، ثم أضفنا التكلفة المبلغ عنها لـ 8 مسرعات Intel Gaudi 3 (125,000 دولار) للوصول إلى سعر النظام الإجمالي 157,613.22 دولارًا. وبالمقارنة، فإن النظام المطابق المزود بـ 8 وحدات معالجة رسومية Nvidia H100 يكلف 300,107.00 دولارًا.
حساب السعر

الجدول 2: الأسعار التفصيلية لخوادم H100 وGaudi 3 AI اعتبارًا من 10 يناير 2025.
مقارنة الأداء
إن مصطلح "الأداء" بالغ الأهمية في هذا السياق، لأنه ينطبق على طريقتين مختلفتين تمامًا لقياس مسرع الذكاء الاصطناعي. أحد مقاييس الأداء هو دقة النتائج، وهو عامل رئيسي يُشار إليه أحيانًا باسم "أداء النموذج". ومع ذلك، فإن التركيز في التحقق التجريبي لدينا ليس الدقة. بدلاً من ذلك، نصف الأداء من خلال قياس معدل معالجة الرموز، والذي يُعبر عنه بعدد الرموز التي تتم معالجتها في الثانية، لتحديد معدل معالجة الرموز للحل.
بالإضافة إلى ذلك، لضمان عدم المساس بدقة النموذج بسبب معدلات معالجة الرموز الأعلى، استخدمنا العديد من الاختبارات المعروفة لقياس دقة النموذج لكلا المسرعين. لا تظهر النتائج أي اختلافات كبيرة في الدقة بين Intel Gaudi 3 وNvidia H100. وبينما تختلف الدقة المبلغ عنها قليلاً، فإن هذه الاختلافات تقع ضمن نطاق خطأ القياس لدينا. يتم توفير نتائج الدقة في الملحق.
مقارنة النماذج الكمية
نبدأ بحالة استخدام أقل شيوعًا، على الرغم من أن هذه النتائج يتم الاستشهاد بها كثيرًا نظرًا لمعدل إنتاجها الأعلى نسبيًا مقارنة بنماذج الاستدلال من نوع البيانات "الوزن الكامل" أو FP16. تستخدم النتائج التالية حجم بيانات "كمي" أصغر FP8، مما يحقق أداء استدلال أسرع على حساب جودة النموذج والنتيجة. هذه النتائج ذات صلة ببعض المستخدمين ويتم تقديمها على هذا النحو.

الشكل 2:مقارنة أداء الاستدلال باستخدام نوع البيانات FP8 ذي 8 بتات
في الشكل أعلاه، يشير "1 x FP8" إلى استخدام بطاقة تسريع واحدة، ويستند الاستدلال إلى نوع بيانات FP8. تسلط هذه النتائج الضوء على ميزة Nvidia H100 التي تدعم نوع بيانات FP8 الكمي في سرعة الاستدلال مقارنة بمسرع Intel Gaudi 3. ومع ذلك، على الرغم من تحسين H100 لنوع بيانات FP8، تظل نتائج Gaudi 3 قريبة إلى حد ما من H100.

الشكل 3:معدل معالجة الرمز لكل تكلفة وحدة مع نوع بيانات FP8 ذي 8 بت
كما هو موضح في الشكل 3، عند تقييم عدد الرموز التي تمت معالجتها لكل وحدة تكلفة (كلما زاد عدد الرموز، كان ذلك أفضل)، نجد أن Gaudi 3 من Intel يوفر نتائج أفضل في جميع مجموعات أحمال العمل الأربعة. على سبيل المثال، مع 128 رمز إدخال و128 رمز إخراج (الرسم البياني الشريطي في أقصى اليسار في الشكل 2)، جنبًا إلى جنب مع بيانات التكلفة من الجدول 1، نستنتج الحسابات التالية:
- Nvidia H100: أداء 128/128 = (26,933 رمزًا/ثانية) / 300,107.00 دولارًا = 0.089744 (محوّل إلى شكل نسبة مئوية بنسبة 8.97%)
- غاودي 3: أداء 128/128 = (23,099 توكن/ثانية) / 157,613.22 دولار = 0.1466 (محوّل إلى شكل نسبة مئوية كـ 14.66%)
أداء لاما كامل الوزن
في الشكل 4، نقارن أداء مسرع Nvidia H100 80GB ومسرع Intel Gaudi 3 باستخدام مسرع واحد ونوع بيانات 16 بت لتشغيل Llama 3.1 8B LLM. والجدير بالذكر أن Nvidia تستخدم "FP16" بينما تستخدم Intel "BF16"، وكلاهما متكافئان في الدقة ولكن مختلفان قليلاً في التمثيل. وكما هو موضح، فإن Gaudi 3 يعمل بشكل أفضل في أحمال العمل ذات نسب الإدخال إلى الإخراج الأصغر، بينما يتفوق H100 قليلاً في أحمال العمل ذات نسب الإدخال إلى الإخراج الأكبر.

الشكل 4:Llama 8B – مقارنة أداء المسرع الفردي (16 بت)
بعد ذلك، نقوم بتقييم أداء مسرعات الذكاء الاصطناعي في نفس سيناريوهات أحمال العمل الأربعة باستخدام نموذج Llama 3.1 70B الأكبر. نظرًا لمتطلبات الذاكرة، يتطلب هذا النموذج تشغيل مسرعات متعددة. في الشكل 5، نقدم أداء 8 مسرعات، بمقارنة Nvidia H100 وIntel Gaudi 3. يشير الملصق "(8 x 16bit)" إلى استخدام 8 مسرعات بنوع بيانات FP16 أو BF16.

الشكل 5:Llama 70B – مقارنة أداء 8 مسرعات (16 بت)
وتشير النتائج مرة أخرى إلى أن أداء Nvidia أفضل قليلاً في أحمال العمل ذات نسب الإدخال إلى الإخراج الأعلى.
مقارنة الأداء والتكلفة
كما ذكرنا سابقًا، فإن أحد أهم الاعتبارات التي يجب على العديد من الشركات مراعاتها عند اختيار مسرعات الذكاء الاصطناعي هو العلاقة بين معدل معالجة الرموز والتكلفة. في هذه الدراسة، يتم التعبير عن نسبة الأداء إلى التكلفة على أنها عدد الرموز التي تتم معالجتها لكل وحدة تكلفة (رموز/ثانية/دولار أمريكي).
أولاً، في الشكل 6، نقوم بتحليل نتائج تشغيل نموذج Llama 3.1 8B باستخدام مسرع واحد، مع دمج عوامل التكلفة. يتم تقديم النتائج على هيئة عدد الرموز التي تمت معالجتها لكل وحدة تكلفة (أي الرموز التي تمت معالجتها في الثانية/دولار أمريكي). لذلك، كلما زادت القيمة، كان ذلك أفضل، مما يشير إلى المزيد من الرموز التي تمت معالجتها لكل وحدة تكلفة.

الشكل 6:Llama 8B – مقارنة معدل معالجة الرمز المميز المسرع الفردي لكل دولار (16 بت)
بعد ذلك، يوضح الشكل 7 الأداء لكل تكلفة وحدة عند تشغيل نموذج Llama 3.1 70B الأكبر باستخدام مسرعات متعددة. وكما كان الحال من قبل، يتم تشغيل عبء العمل هذا بدقة 16 بت كاملة على 8 مسرعات ذكاء اصطناعي.

الشكل 7:Llama 70B – 8 Accelerators Token Processing Rate Compared for Dollar (16-bit)
ملخص الأداء
كما هو موضح من خلال العديد من نقاط البيانات، من منظور الأداء وحده، توفر Nvidia H100 وIntel Gaudi 3 سرعات استدلال مماثلة على مجموعة أحمال العمل Llama 3.1 التي تم اختبارها. في بعض الحالات، تتمتع Nvidia بميزة طفيفة، بينما في حالات أخرى، يكون أداء Intel Gaudi 3 أفضل.
وفقًا لبيانات التسعير الخاصة بنا، تقدم Gaudi 3 من Intel أداءً أعلى بنسبة 10% لكل تكلفة وحدة مقارنة بـ Nvidia H100، وفي بعض الحالات، يصل إلى 2.5 مرة. تعمل الشركات على تطوير تطبيقات بسرعة لتعزيز الإنتاجية باستخدام الذكاء الاصطناعي. ومع انتشار التطبيقات المعززة بالذكاء الاصطناعي بشكل أكبر، سيتحول الضغط التنافسي من مجرد وجود تطبيقات ذكاء اصطناعي تشغيلية إلى التمييز على أساس الجودة والفعالية من حيث التكلفة. حتى الآن، ركزت الكثير من التقارير والدعاية في مجال الذكاء الاصطناعي على عمليات النشر الضخمة والآلاف من مسرعات الذكاء الاصطناعي المستخدمة لتطوير وتدريب أحدث نماذج الذكاء الاصطناعي. في حين أن شركات الحجم الهائل لديها الموارد لمثل هذه المساعي، إلا أنه بالنسبة لمعظم الشركات، ليس من الممكن ولا من حيث التكلفة تطوير وتدريب نماذج Transformer أو Diffusion الأساسية. علاوة على ذلك، ستكون حالة الاستخدام الأساسية للشركات هي النشر الإنتاجي، وتشغيل أحمال عمل الاستدلال. إن استخدامنا لمجموعة معايير Signal65 لدراسة أحمال العمل هذه يهدف إلى توفير رؤى مفيدة حول مقاييس الأداء والفعالية من حيث التكلفة، ومساعدة كبار صناع القرار في الشركات على اتخاذ قرارات شراء مستنيرة لمنصات الاستدلال بالذكاء الاصطناعي. وفي حين قد تتمتع Nvidia H100 بميزة أداء طفيفة على مسرعات الذكاء الاصطناعي Intel Gaudi 3، فعند النظر في فروق التكلفة، يُظهر Gaudi 3 من Intel ميزة كبيرة من حيث الفعالية من حيث التكلفة عبر أحمال العمل المختلفة للاستدلال التي قدمناها.