Когда говорят об Интернете, его обычно сравнивают с автомагистралью. Сетевая карта эквивалентна воротам для въезда и выезда с автомагистрали, пакет данных эквивалентен автомобилю, который перевозит данные, а правила дорожного движения — «протоколам передачи».
Так же, как и на автомагистралях могут быть пробки, магистраль данных сети также может столкнуться с проблемами перегрузки, особенно в сегодняшнюю эпоху стремительного развития искусственного интеллекта, который предъявляет все более высокие требования к сетям центров обработки данных.
Сегодня мы поговорим о том, какая сеть может удовлетворить потребности эпохи ИИ.
Почему текущий Интернет не работает?
Интернет развивается уже много лет, так почему же его так часто поднимают в последнее время? Почему традиционная сеть стала узким местом современных центров обработки данных?
Несомненно, это тесно связано с интенсивными вычислительными сценариями, такими как ИИ и машинное обучение. Эти сценарии имеют растущий спрос на вычислительную мощность. Согласно статистике IDC, глобальный спрос на вычислительную мощность удваивается каждые 3.5 месяца, что намного превышает текущие темпы роста вычислительной мощности. Чтобы удовлетворить растущий спрос на вычислительную мощность, одновременно увеличивая вычислительную мощность, необходимо также полностью улучшить эффективность использования и производительность связи вычислительной мощности. Как один из трех основных компонентов центра обработки данных, сеть центра обработки данных столкнется с проблемами.
Это связано с тем, что в традиционной архитектуре фон Неймана сеть обычно играет только роль передачи данных, а вычисления сосредоточены на CPU или GPU. Когда большие и сложные модели, такие как ChatGPT и BERT, распределяют свои рабочие нагрузки на большое количество GPU для параллельных вычислений, будет сгенерирован большой объем пакетной передачи градиентных данных, что может легко привести к перегрузке сети.
Это естественный недостаток традиционной архитектуры фон Неймана. В эпоху ИИ с возросшей вычислительной мощностью ни увеличение пропускной способности, ни уменьшение задержки не могут решить эту сетевую проблему.
Так как же нам продолжить повышать производительность сетей центров обработки данных?
Существуют ли новые способы повышения производительности сети?
Существует два традиционных способа повышения производительности сети: увеличение пропускной способности и уменьшение задержки. Эти два метода просты для понимания, как и перевозка грузов по шоссе, либо увеличение ширины дороги, либо увеличение ограничения скорости на дороге может решить проблему перегрузки сети.
В повседневной жизни, когда мы сталкиваемся с медленным подключением к Интернету, мы также применяем эти два метода: либо доплачиваем за обновление до более высокой пропускной способности, либо покупаем сетевое оборудование с более высокой производительностью.
Однако эти два метода могут улучшить сеть только до определенной степени. Когда пропускная способность будет повышена до определенной ширины, а оборудование достигнет определенного уровня, будет сложно улучшить фактическую производительность сети дальше. Это также является основной причиной узкого места сети в нынешнюю эпоху ИИ.
Есть ли лучшее решение для улучшения сети?
Ответ — да. Для ускорения обучения моделей и обработки больших наборов данных NVIDIA, как мировой лидер вычислительной мощности ИИ, давно обнаружила узкое место традиционных сетей. С этой целью NVIDIA выбрала новый путь: развертывание вычислений вокруг данных. Проще говоря, где есть данные, там и вычисления: когда данные находятся на GPU, вычисления происходят на GPU; когда данные передаются в сети, вычисления происходят в сети.
Короче говоря, сеть должна не только гарантировать производительность передачи данных, но и выполнять некоторые вычисления по обработке данных.
Эта новая архитектура позволяет CPU или GPU сосредоточиться на вычислительных задачах, в которых они хороши, и распределяет некоторые рабочие нагрузки инфраструктурных операций по сетевым узлам, тем самым решая проблему узкого места или проблему потери пакетов при сетевой передаче. Понятно, что этот метод может сократить задержку сети более чем в 10 раз.
Таким образом, инфраструктурные вычисления стали одной из ключевых технологий современной архитектуры базовых вычислений, ориентированных на данные.
Почему DPU может способствовать улучшению сети?
Когда речь заходит об инфраструктурных вычислениях, мы должны упомянуть концепцию DPU. Полное название DPU — Data Processing Unit. Это третий основной чип в центре обработки данных. Его основная цель — разделить инфраструктурную нагрузку ЦП в центре обработки данных, за исключением общих вычислений.
NVIDIA — мировой пионер в области DPU. В первой половине 2020 года NVIDIA приобрела израильскую компанию по производству сетевых чипов Mellanox Technologies за 6.9 млрд долларов США и в том же году выпустила DPU BlueField-2, определив его как «третий основной чип» после CPU и GPU, официально дав старт разработке DPU.
Тогда некоторые люди спросят, какую роль этот DPU играет в сети?
Позвольте мне привести пример, иллюстрирующий это.
Как и в ресторане, раньше было меньше людей, и босс отвечал за всю работу, включая закупку, мытье и нарезку, подготовку блюд, готовку, подачу еды и кассу. Как и центральный процессор, он должен не только выполнять математические и логические операции, но и управлять внешними устройствами, выполнять различные задачи в разное время и переключать задачи для удовлетворения потребностей выполнения бизнес-приложений.
Однако по мере увеличения количества обслуживаемых клиентов различные задачи должны быть распределены между разными людьми. Несколько продавцов отвечают за закупку, мытье, нарезку и подготовку блюд, чтобы гарантировать подготовку ингредиентов шеф-поваром; несколько поваров готовят еду параллельно, чтобы повысить эффективность приготовления блюд; несколько официантов обслуживают и доставляют блюда, чтобы гарантировать качество обслуживания нескольких столов клиентов; а босс отвечает только за кассу и управление.
Таким образом, команда продавцов и официантов подобна процессорам обработки данных, обрабатывающим и перемещающим данные; команда поваров подобна графическим процессорам, выполняющим параллельные вычисления с данными, а начальник подобен центральному процессору, получающему требования бизнес-приложений и предоставляющему результаты.
Центральный процессор, графический процессор и процессор обработки данных выполняют свои функции и работают вместе, чтобы максимально эффективно обрабатывать рабочие нагрузки, что значительно повышает производительность и энергоэффективность центра обработки данных, а также обеспечивает лучшую окупаемость инвестиций.
Какие продукты DPU выпустила NVIDIA?
После запуска процессора обработки данных BlueField-2 в 2020 году компания NVIDIA в апреле 3 года выпустила процессор обработки данных следующего поколения NVIDIA BlueField-2021 DPU для удовлетворения уникальных потребностей рабочих нагрузок ИИ.
BlueField-3 — первый DPU, разработанный для ИИ и ускоренных вычислений. Понятно, что BlueField-3 DPU может эффективно разгружать, ускорять и изолировать рабочие нагрузки инфраструктуры центра обработки данных, тем самым освобождая ценные ресурсы ЦП для запуска критически важных бизнес-приложений.

Эра ИИ
Современная гипермасштабная облачная технология переводит центры обработки данных на принципиально новую архитектуру, используя новый тип процессора, разработанный специально для программного обеспечения инфраструктуры центров обработки данных, чтобы разгрузить и ускорить огромные вычислительные нагрузки, генерируемые виртуализацией, сетями, хранилищем, безопасностью и другими облачными службами искусственного интеллекта. Для этой цели был создан BlueField DPU.
BlueField-400, первый в отрасли DPU 3G Ethernet и NDR InfiniBand, обладает выдающейся сетевой производительностью. Он может предоставлять программно-определяемые, аппаратно-ускоренные решения инфраструктуры центров обработки данных для требовательных рабочих нагрузок, ускоряя ИИ до гибридного облака и высокопроизводительных вычислений, а затем до беспроводных сетей 5G. BlueField-3 DPU переопределяет различные возможности.
После выпуска BlueField-3 DPU NVIDIA не прекратила исследования. NVIDIA обнаружила, что с появлением и популярностью больших моделей, как улучшить производительность распределенных вычислений и эффективность кластеров GPU, улучшить возможности горизонтального расширения кластеров GPU и достичь изоляции производительности бизнеса в облаках генеративного ИИ, стали вопросами, вызывающими общую озабоченность у всех производителей крупных моделей и поставщиков услуг ИИ.
С этой целью в конце 2023 года NVIDIA запустила BlueField-3 SuperNIC для оптимизации производительности для трафика «восток-запад». Он создан на основе BlueField DPU и использует ту же архитектуру, что и DPU, но отличается от DPU. DPU фокусируется на разгрузке инфраструктурных операций и ускоряет и оптимизирует трафик «север-юг». BlueField SuperNIC использует такие технологии, как динамическая маршрутизация, контроль перегрузки и изоляция производительности в сети InfiniBand, и совместим с удобством стандарта Ethernet в облаке, тем самым отвечая требованиям производительности, масштабируемости и многопользовательской среды генеративного облака ИИ.

Сетевая платформа NVIDIA BlueField-3
Подводя итог, можно сказать, что текущая сетевая платформа NVIDIA BlueField-3 включает в себя два продукта, а именно BlueField-3 DPU для ограниченной по скорости обработки программно-определяемых задач сетевого хранения и безопасности, а также BlueField SuperNIC, специально разработанный для эффективной поддержки сверхкрупномасштабных облаков ИИ.
Каково применение DOCA для DPU?
Когда мы говорим о DPU, мы часто говорим о DOCA. Так что же такое DOCA? Какова его ценность для DPU?
Из вышесказанного мы знаем, что у NVIDIA есть два продукта: BlueField-3 DPU и BlueField-3 SuperNIC, которые могут значительно ускорить текущий всплеск вычислительной мощности ИИ.
Однако в настоящее время сложно удовлетворить различные текущие сценарии применения, полагаясь исключительно на аппаратные продукты, поэтому нам необходимо полагаться на возможности программного обеспечения.
CUDA — известная программная платформа для GPU на рынке вычислительной мощности. В ответ на потребности сетевых платформ NVIDIA приняла тот же интегрированный метод аппаратного и программного ускорения. Три года назад она также запустила DOCA — платформу разработки программного обеспечения, адаптированную для DPU, которая теперь применима и к BlueField-3 SuperNIC.
NVIDIA DOCA имеет богатые библиотеки, драйверы и API, которые обеспечивают «комплексное обслуживание» для разработчиков DOCA, а также являются ключом к ускорению сервисов облачной инфраструктуры.

Программное обеспечение NVIDIA DOCA для облачных вычислений с искусственным интеллектом
Как полнофункциональный компонент, DOCA является ключевой частью решения головоломки ИИ, связывая вычисления, сетевые технологии, хранение и безопасность. С помощью DOCA разработчики могут создавать программно-определяемые, облачные, DPU- и SuperNIC-ускоренные сервисы, которые поддерживают защиту с нулевым доверием для удовлетворения потребностей современных центров обработки данных в производительности и безопасности.
После трех лет итеративных обновлений DOCA 2.7 не только расширяет роль BlueField DPU в разгрузке, ускорении и изоляции сети, хранения, безопасности и управления инфраструктурой в центре обработки данных, но и дополнительно улучшает облачный центр обработки данных ИИ и ускоряет сетевую платформу NVIDIA Spectrum-X, обеспечивая превосходную производительность для рабочих нагрузок ИИ.
Давайте рассмотрим ключевую роль DOCA для графических процессоров и DPU NVIDIA BlueField-3 или BlueField–3 SuperNIC:
БлюФилд-3 ДПУ | BlueField-3 Суперсетевая карта | |
Задач | > Процессор облачной инфраструктуры > Деинсталляция, ускорение и изоляция инфраструктуры центра обработки данных > оптимизировано для NS в системах уровня GPU | > Отличный RoCE > для вычислительной сети ИИ > Оптимизировано для EW в системах уровня GPU |
Общие функции | > Ускорение сети VPC > Ускорение сетевого шифрования > Программируемый сетевой конвейер > Точный расчет времени > Безопасность платформы | |
Отличительные особенности | > Мощная вычислительная мощность > Безопасное управление нулевым доверием > Ускорение хранения данных > Эластичная конфигурация инфраструктуры > 1-2 DPU на систему | > Мощная сеть > Набор функций искусственного интеллекта сети > Полная оптимизация NVIDIA AI > Энергоэффективный полувысокий дизайн > Максимум 8 SuperNIC на систему |
Подводя итог, NVIDIA DOCA для DPU и SuperNIC — то же, что CUDA для GPU. DOCA объединяет широкий спектр мощных API, библиотек и драйверов для программирования и ускорения современной инфраструктуры центров обработки данных.
Станет ли развитие DOCA следующим направлением «Голубого океана»?
Нет сомнений, что с появлением ИИ, глубокого обучения, метавселенной и других технических сценариев все большему числу компаний требуется больше разработчиков DOCA, чтобы присоединиться к ним и воплотить в жизнь больше инноваций и идей. Известные поставщики облачных услуг испытывают растущий спрос на DPU и нуждаются в использовании технологии аппаратного ускорения DOCA для оптимизации производительности центров обработки данных.

Инструменты, предоставляемые DOCA для разработчиков
И поскольку предприятия увеличивают спрос на эффективную и безопасную обработку данных, разработка DOCA также стала навыком для инженеров облачной инфраструктуры, облачных архитекторов, сетевых инженеров и других должностей, чтобы получить конкурентное преимущество. Кроме того, разработчики DOCA также могут создавать программно-определяемые, облачные и ускоренные DPU сервисы. Участие в разработке DOCA может не только улучшить личные навыки, но и усилить влияние в технологическом сообществе.
В настоящее время число разработчиков DOCA далеко от удовлетворения рыночного спроса. По официальным данным, в мире насчитывается более 14,000 5 разработчиков DOCA, почти половина из которых из Китая. Хотя кажется, что людей много, по сравнению с CUDA, у которой XNUMX миллионов разработчиков по всему миру, разработчикам DOCA еще есть куда расти.
Но в конце концов, DOCA был выпущен всего три года назад, а CUDA имеет историю почти 30 лет. Конечно, это также показывает, что DOCA все еще находится на ранних стадиях развития и имеет большой потенциал.
Чтобы привлечь больше разработчиков к участию в разработке DOCA, NVIDIA в последние годы активно оказывает разработчикам помощь посредством различных мероприятий, включая подготовку и реализацию сообщества разработчиков DOCA China, проведение онлайн- и офлайн-тренировочных лагерей для разработчиков DOCA, а также проведение соревнований по хакатонам для разработчиков DOCA.
Мало того, в июне 2024 года в Университете науки и технологий Макао официально стартовал вводный курс по программированию NVIDIA DPU. Публичный план курса показывает, что содержание включает в себя всестороннее введение в то, как сетевая платформа NVIDIA BlueField и фреймворк NVIDIA DOCA ускоряют вычисления ИИ, помогая студентам колледжей получить конкурентное преимущество в эпоху ИИ.
Для разработчиков, желающих перейти на другую работу, и студентов, которые собираются окончить вуз, разработка DOCA — это направление, в отношении которого многие с оптимизмом смотрят.
В мероприятии по обмену кодом приложений NVIDIA DOCA, которое завершилось в начале года, многие разработчики отличились и получили награды, в том числе многие студенты колледжей. Чэнь Цинь, который выиграл первый приз на этом мероприятии, является студентом магистратуры в области компьютерных наук и технологий. Он сказал: «Благодаря разработке DOCA я не только улучшил свои способности, но и получил потенциальные возможности трудоустройства. Я также получил большое признание от старших членов сообщества, что придает мне больше уверенности в себе».
Сегодня сообщество разработчиков NVIDIA DOCA China продолжает расти, и различные мероприятия и контент будут продолжаться. Это, несомненно, хорошее время для тех, кто хочет присоединиться к разработке DOCA.