В чем разница между InfiniBand и RoCE?

Сетевая архитектура центра обработки данных

Ригельная архитектура

  • Тип архитектуры, заимствованный из самой ранней телефонной коммутационной сети (перекрестный коммутатор).
  • Состоит из нескольких входных портов, нескольких выходных портов и матрицы переключателей.
  • Очень гибкий и эффективный, позволяет создавать произвольные соединения между различными устройствами.
Ригельная архитектура

Клоская архитектура

  • Родился в 1952 году, предложен человеком по имени Чарльз Клос.
  • Архитектура Clos в основном описывает структуру многоступенчатой ​​сети коммутации каналов.
  • Архитектура Clos — это улучшение перекрестной структуры, которая может обеспечить неблокируемую сеть. Преимущество Clos в том, что он экономит затраты и повышает эффективность.
Клоская архитектура

Архитектура «толстого дерева»

Fat-Tree — это тип сетевой архитектуры CLOS.

По сравнению с традиционной древовидной структурой, Толстое Дерево больше похоже на настоящее дерево, с более толстыми ветвями у корня. От листьев к корню пропускная способность сети не сходится.

Основная идея: использовать большое количество низкопроизводительных коммутаторов для построения масштабной неблокируемой сети. Для любого шаблона связи всегда существует путь, позволяющий достичь пропускной способности сетевой карты.

Архитектура «толстого дерева»

После внедрения в дата-центр архитектуры Fat-Tree, дата-центр приобрел традиционную трехуровневую структуру:

Уровень доступа: используется для соединения всех вычислительных узлов. Обычно в виде стоечного коммутатора (TOR, Top of Rack).

Уровень агрегации: используется для соединения уровня доступа, а также в качестве границы второго и третьего уровней области агрегации. Здесь также развернуты различные сервисы, такие как межсетевые экраны, балансировка нагрузки и т. д.

Основной слой: используется для соединения уровня агрегации и для реализации связи третьего уровня между всем центром обработки данных и внешней сетью.

трехслойная структура

Недостатки архитектуры Fat-Tree:

Отходы ресурсов: В традиционной трехуровневой структуре коммутатор нижнего уровня будет подключен к двум коммутаторам верхнего уровня через два канала. Поскольку используется протокол STP (протокол связующего дерева), фактически трафик передается только по одному каналу. Другой восходящий канал заблокирован (используется только для резервного копирования). Это приводит к потере пропускной способности.

Большой домен сбоя: Протокол STP из-за собственного алгоритма должен повторно сходиться при изменении топологии сети, что может легко вызвать сбои и повлиять на сеть всей VLAN.

Не подходит для движения с востока на запад.: Связь между серверами требует прохождения через коммутатор доступа, коммутатор агрегации и коммутатор ядра.

Не подходит для движения с востока на запад.

Сеть Spine-Leaf

Как и структура Fat-Tree, она принадлежит сетевой модели CLOS.

По сравнению с традиционной трехуровневой сетевой архитектурой сеть Spine-Leaf была упрощена и превращена в двухуровневую архитектуру.

Сеть Spine-Leaf

Листовой коммутатор, эквивалентный коммутатору доступа в традиционной трехуровневой архитектуре, представляет собой TOR (Top Of Rack), напрямую подключенный к физическому серверу. Над конечным коммутатором находится сеть третьего уровня, каждая из которых представляет собой независимый широковещательный домен L2. Если серверам под двумя конечными коммутаторами необходимо взаимодействовать, их необходимо перенаправить с помощью коммутатора позвоночника.

Спиновый переключатель, эквивалентный основному переключателю. Листовые и магистральные коммутаторы динамически выбирают несколько путей посредством ECMP (многопутный доступ с равной стоимостью).

Количество портов нисходящей линии связи основного коммутатора определяет количество конечных коммутаторов. Количество портов восходящей линии связи листового коммутатора определяет количество магистральных коммутаторов. Они совместно определяют масштаб сети Spine-Leaf.

топология позвоночника

Преимущества сети Spine-Leaf

Высокое использование полосы пропускания

Восходящий канал каждого листового коммутатора работает с балансировкой нагрузки, полностью используя полосу пропускания.

Предсказуемая задержка в сети

В приведенной выше модели можно определить количество путей связи между листовыми коммутаторами, и для каждого пути требуется только один магистральный коммутатор. Задержка сети восток-запад предсказуема.

Хорошая масштабируемость

Когда пропускная способность недостаточна, количество коммутаторов позвоночника можно увеличить для горизонтального масштабирования полосы пропускания. Когда количество серверов увеличивается, количество коммутаторов позвоночника также может быть увеличено для расширения масштаба центра обработки данных. Планирование и расширение очень удобны.

Снижение требований к переключателям

Трафик север-юг может исходить из конечных узлов или узлов позвоночника. Движение с востока на запад распределяется по нескольким путям. Дорогие высокопроизводительные коммутаторы с высокой пропускной способностью не требуются.

Высокая безопасность и доступность

Традиционные сети используют протокол STP, который восстанавливается в случае сбоя устройства, влияя на производительность сети или даже вызывая сбои. В архитектуре Spine-Leaf в случае сбоя устройства нет необходимости повторно сходиться, и трафик продолжает проходить по другим обычным путям. На сетевое подключение это не влияет, а пропускная способность уменьшается только на величину пропускной способности одного пути. Влияние на производительность незначительно.

InfiniBand

Протокол RDMA (удаленный прямой доступ к памяти)

В традиционном протоколе TCP/IP данные с сетевой карты сначала копируются в память ядра, а затем копируются в пространство хранения приложения, либо данные копируются из пространства приложения в память ядра, а затем отправляются в Интернет через сетевая карта. Этот режим работы ввода-вывода требует преобразования памяти ядра. Это увеличивает длину пути передачи потока данных, увеличивает нагрузку на процессор, а также увеличивает задержку передачи.

Механизм обхода ядра RDMA позволяет осуществлять прямое чтение и запись данных между приложением и сетевой картой, сокращая задержку передачи данных внутри сервера почти до 1 мкс.

В то же время механизм нулевого копирования памяти RDMA позволяет получателю напрямую считывать данные из памяти отправителя, минуя участие памяти ядра, что значительно снижает нагрузку на ЦП и повышает эффективность ЦП.

РДМА
infiniband против rdma

История создания InfiniBand

InfiniBand (сокращенно IB) — это мощный протокол коммуникационных технологий. Его английский перевод — «бесконечная полоса пропускания». Он родился в 1990-х годах, чтобы заменить шину PCI (Peripheral Component Interconnect). Шина PCI была введена Intel в архитектуру ПК, и скорость обновления была медленной, что сильно ограничивало производительность ввода-вывода и становилось узким местом всей системы.

История создания InfiniBand

История развития InfiniBand

В 1990-х годах Intel, Microsoft и SUN возглавили разработку технологического стандарта «Ввод-вывод следующего поколения (NGIO)», а IBM, Compaq и HP возглавили разработку «Ввод-вывод будущего (FIO)».

В 1999 году Форум разработчиков FIO и Форум NGIO объединились и создали InfiniBand Торговая ассоциация (ИБТА).

В 2000 году была официально выпущена спецификация архитектуры InfiniBand версии 1.0.

В мае 1999 года несколько сотрудников, покинувших Intel и Galileo Technology, основали в Израиле компанию по производству микросхем и назвали ее Mellanox.

После основания компании Mellanox она присоединилась к NGIO. Позже к лагерю InfiniBand присоединилась Mellanox. В 2001 году они выпустили свой первый продукт InfiniBand. Начиная с

В 2003 году InfiniBand обратился к новой области применения — соединению компьютерных кластеров.

В 2004 году родилась еще одна важная некоммерческая организация InfiniBand — OFA (Open Fabrics Alliance).

В 2005 году InfiniBand нашел еще один новый сценарий — подключение устройств хранения данных.

С тех пор InfiniBand вступил в стадию быстрого развития.

История развития InfiniBand

Сетевая архитектура InfiniBand

InfiniBand — это канальная структура, состоящая из четырех основных компонентов:

  • HCA (адаптер хост-канала), который подключает хост к сети InfiniBand.
  • TCA (адаптер целевого канала), который подключает целевое устройство (например, хранилище) к сети InfiniBand.
  • Канал InfiniBand, который может быть кабельным, оптоволоконным или встроенным каналом, соединяет адаптеры каналов с коммутаторами или маршрутизаторами.
  • Коммутатор и маршрутизатор InfiniBand, обеспечивающие сетевое подключение и маршрутизацию для сети InfiniBand.
  • Адаптеры каналов используются для создания каналов InfiniBand. Все передачи начинаются или заканчиваются адаптерами каналов для обеспечения безопасности или работы на заданном уровне QoS (качества обслуживания).
Сетевая архитектура InfiniBand
подсети
бесконечный слой
инфинибанд сообщение
бесконечная передача
стандарт интерфейса
скорость интерфейса

Mellanox, приобретенная Nvidia в 2020 году. С тех пор она широко используется при обучении крупных моделей искусственного интеллекта.

бесконечная зона

РОСЕ

Рождение RoCE

В апреле 2010 года IBTA выпустила RoCE (RDMA over Converged Ethernet), который «портировал» технологию RDMA из InfiniBand в Ethernet. В 2014 году они предложили более зрелый RoCEv2. Благодаря RoCEv2 Ethernet значительно сократил разрыв в технической производительности с InfiniBand и в сочетании с присущими ему преимуществами стоимости и совместимости начал сопротивляться.

РОСЕ

РоЦЭ V2

RoCE v1: протокол RDMA, основанный на канальном уровне Ethernet (коммутатор должен поддерживать технологии управления потоком, такие как PFC, для обеспечения надежной передачи на физическом уровне), который обеспечивает связь между двумя хостами в одной VLAN. RoCE V2: преодолено ограничение RoCE v1, привязываемое к одной VLAN. Изменив инкапсуляцию пакетов, включая заголовки IP и UDP, RoCE 2 теперь можно использовать в сетях L2 и L3.

принцип работы Роше
структура сообщения
ИБ и Роче

Оставьте комментарий

Наверх