Сетевая архитектура центра обработки данных
Ригельная архитектура
- Тип архитектуры, заимствованный из самой ранней телефонной коммутационной сети (перекрестный коммутатор).
- Состоит из нескольких входных портов, нескольких выходных портов и матрицы переключателей.
- Очень гибкий и эффективный, позволяет создавать произвольные соединения между различными устройствами.
Клоская архитектура
- Родился в 1952 году, предложен человеком по имени Чарльз Клос.
- Архитектура Clos в основном описывает структуру многоступенчатой сети коммутации каналов.
- Архитектура Clos — это улучшение перекрестной структуры, которая может обеспечить неблокируемую сеть. Преимущество Clos в том, что он экономит затраты и повышает эффективность.
Архитектура «толстого дерева»
Fat-Tree — это тип сетевой архитектуры CLOS.
По сравнению с традиционной древовидной структурой, Толстое Дерево больше похоже на настоящее дерево, с более толстыми ветвями у корня. От листьев к корню пропускная способность сети не сходится.
Основная идея: использовать большое количество низкопроизводительных коммутаторов для построения масштабной неблокируемой сети. Для любого шаблона связи всегда существует путь, позволяющий достичь пропускной способности сетевой карты.
После внедрения в дата-центр архитектуры Fat-Tree, дата-центр приобрел традиционную трехуровневую структуру:
Уровень доступа: используется для соединения всех вычислительных узлов. Обычно в виде стоечного коммутатора (TOR, Top of Rack).
Уровень агрегации: используется для соединения уровня доступа, а также в качестве границы второго и третьего уровней области агрегации. Здесь также развернуты различные сервисы, такие как межсетевые экраны, балансировка нагрузки и т. д.
Основной слой: используется для соединения уровня агрегации и для реализации связи третьего уровня между всем центром обработки данных и внешней сетью.
Недостатки архитектуры Fat-Tree:
Отходы ресурсов: В традиционной трехуровневой структуре коммутатор нижнего уровня будет подключен к двум коммутаторам верхнего уровня через два канала. Поскольку используется протокол STP (протокол связующего дерева), фактически трафик передается только по одному каналу. Другой восходящий канал заблокирован (используется только для резервного копирования). Это приводит к потере пропускной способности.
Большой домен сбоя: Протокол STP из-за собственного алгоритма должен повторно сходиться при изменении топологии сети, что может легко вызвать сбои и повлиять на сеть всей VLAN.
Не подходит для движения с востока на запад.: Связь между серверами требует прохождения через коммутатор доступа, коммутатор агрегации и коммутатор ядра.
Сеть Spine-Leaf
Как и структура Fat-Tree, она принадлежит сетевой модели CLOS.
По сравнению с традиционной трехуровневой сетевой архитектурой сеть Spine-Leaf была упрощена и превращена в двухуровневую архитектуру.
Листовой коммутатор, эквивалентный коммутатору доступа в традиционной трехуровневой архитектуре, представляет собой TOR (Top Of Rack), напрямую подключенный к физическому серверу. Над конечным коммутатором находится сеть третьего уровня, каждая из которых представляет собой независимый широковещательный домен L2. Если серверам под двумя конечными коммутаторами необходимо взаимодействовать, их необходимо перенаправить с помощью коммутатора позвоночника.
Спиновый переключатель, эквивалентный основному переключателю. Листовые и магистральные коммутаторы динамически выбирают несколько путей посредством ECMP (многопутный доступ с равной стоимостью).
Количество портов нисходящей линии связи основного коммутатора определяет количество конечных коммутаторов. Количество портов восходящей линии связи листового коммутатора определяет количество магистральных коммутаторов. Они совместно определяют масштаб сети Spine-Leaf.
Преимущества сети Spine-Leaf
Высокое использование полосы пропускания
Восходящий канал каждого листового коммутатора работает с балансировкой нагрузки, полностью используя полосу пропускания.
Предсказуемая задержка в сети
В приведенной выше модели можно определить количество путей связи между листовыми коммутаторами, и для каждого пути требуется только один магистральный коммутатор. Задержка сети восток-запад предсказуема.
Хорошая масштабируемость
Когда пропускная способность недостаточна, количество коммутаторов позвоночника можно увеличить для горизонтального масштабирования полосы пропускания. Когда количество серверов увеличивается, количество коммутаторов позвоночника также может быть увеличено для расширения масштаба центра обработки данных. Планирование и расширение очень удобны.
Снижение требований к переключателям
Трафик север-юг может исходить из конечных узлов или узлов позвоночника. Движение с востока на запад распределяется по нескольким путям. Дорогие высокопроизводительные коммутаторы с высокой пропускной способностью не требуются.
Высокая безопасность и доступность
Традиционные сети используют протокол STP, который восстанавливается в случае сбоя устройства, влияя на производительность сети или даже вызывая сбои. В архитектуре Spine-Leaf в случае сбоя устройства нет необходимости повторно сходиться, и трафик продолжает проходить по другим обычным путям. На сетевое подключение это не влияет, а пропускная способность уменьшается только на величину пропускной способности одного пути. Влияние на производительность незначительно.
InfiniBand
Протокол RDMA (удаленный прямой доступ к памяти)
В традиционном протоколе TCP/IP данные с сетевой карты сначала копируются в память ядра, а затем копируются в пространство хранения приложения, либо данные копируются из пространства приложения в память ядра, а затем отправляются в Интернет через сетевая карта. Этот режим работы ввода-вывода требует преобразования памяти ядра. Это увеличивает длину пути передачи потока данных, увеличивает нагрузку на процессор, а также увеличивает задержку передачи.
Механизм обхода ядра RDMA позволяет осуществлять прямое чтение и запись данных между приложением и сетевой картой, сокращая задержку передачи данных внутри сервера почти до 1 мкс.
В то же время механизм нулевого копирования памяти RDMA позволяет получателю напрямую считывать данные из памяти отправителя, минуя участие памяти ядра, что значительно снижает нагрузку на ЦП и повышает эффективность ЦП.
История создания InfiniBand
InfiniBand (сокращенно IB) — это мощный протокол коммуникационных технологий. Его английский перевод — «бесконечная полоса пропускания». Он родился в 1990-х годах, чтобы заменить шину PCI (Peripheral Component Interconnect). Шина PCI была введена Intel в архитектуру ПК, и скорость обновления была медленной, что сильно ограничивало производительность ввода-вывода и становилось узким местом всей системы.
История развития InfiniBand
В 1990-х годах Intel, Microsoft и SUN возглавили разработку технологического стандарта «Ввод-вывод следующего поколения (NGIO)», а IBM, Compaq и HP возглавили разработку «Ввод-вывод будущего (FIO)».
В 1999 году Форум разработчиков FIO и Форум NGIO объединились и создали InfiniBand Торговая ассоциация (ИБТА).
В 2000 году была официально выпущена спецификация архитектуры InfiniBand версии 1.0.
В мае 1999 года несколько сотрудников, покинувших Intel и Galileo Technology, основали в Израиле компанию по производству микросхем и назвали ее Mellanox.
После основания компании Mellanox она присоединилась к NGIO. Позже к лагерю InfiniBand присоединилась Mellanox. В 2001 году они выпустили свой первый продукт InfiniBand. Начиная с
В 2003 году InfiniBand обратился к новой области применения — соединению компьютерных кластеров.
В 2004 году родилась еще одна важная некоммерческая организация InfiniBand — OFA (Open Fabrics Alliance).
В 2005 году InfiniBand нашел еще один новый сценарий — подключение устройств хранения данных.
С тех пор InfiniBand вступил в стадию быстрого развития.
Сетевая архитектура InfiniBand
InfiniBand — это канальная структура, состоящая из четырех основных компонентов:
- HCA (адаптер хост-канала), который подключает хост к сети InfiniBand.
- TCA (адаптер целевого канала), который подключает целевое устройство (например, хранилище) к сети InfiniBand.
- Канал InfiniBand, который может быть кабельным, оптоволоконным или встроенным каналом, соединяет адаптеры каналов с коммутаторами или маршрутизаторами.
- Коммутатор и маршрутизатор InfiniBand, обеспечивающие сетевое подключение и маршрутизацию для сети InfiniBand.
- Адаптеры каналов используются для создания каналов InfiniBand. Все передачи начинаются или заканчиваются адаптерами каналов для обеспечения безопасности или работы на заданном уровне QoS (качества обслуживания).
Mellanox, приобретенная Nvidia в 2020 году. С тех пор она широко используется при обучении крупных моделей искусственного интеллекта.
РОСЕ
Рождение RoCE
В апреле 2010 года IBTA выпустила RoCE (RDMA over Converged Ethernet), который «портировал» технологию RDMA из InfiniBand в Ethernet. В 2014 году они предложили более зрелый RoCEv2. Благодаря RoCEv2 Ethernet значительно сократил разрыв в технической производительности с InfiniBand и в сочетании с присущими ему преимуществами стоимости и совместимости начал сопротивляться.
РоЦЭ V2
RoCE v1: протокол RDMA, основанный на канальном уровне Ethernet (коммутатор должен поддерживать технологии управления потоком, такие как PFC, для обеспечения надежной передачи на физическом уровне), который обеспечивает связь между двумя хостами в одной VLAN. RoCE V2: преодолено ограничение RoCE v1, привязываемое к одной VLAN. Изменив инкапсуляцию пакетов, включая заголовки IP и UDP, RoCE 2 теперь можно использовать в сетях L2 и L3.
Сопутствующие товары:
- Mellanox MMA1B00-E100 совместимый модуль приемопередатчика 100G InfiniBand EDR QSFP28 SR4 850nm 100m MTP/MPO MMF DDM $40.00
- Mellanox MMA1T00-HS, совместимый с 200G Infiniband HDR QSFP56 SR4, 850 нм, 100 м, MPO-12, модуль оптического приемопередатчика APC OM3/OM4 FEC PAM4 $200.00
- Mellanox MMS1W50-HM совместимый 200G InfiniBand HDR QSFP56 FR4 PAM4 CWDM4 2 км LC SMF FEC модуль оптического трансивера $650.00
- Совместимый с NVIDIA MMS4X00-NS400 400G OSFP DR4 Flat Top PAM4 1310nm MTP/MPO-12 500m SMF FEC Модуль оптического трансивера $800.00
- Совместимость с NVIDIA MFP7E20-N050, 50 волокон, 164 м (8 футов) с низкими вносимыми потерями, гнездо к гнезду, от MPO12 до 2xMPO12, полярность B от APC до APC LSZH, многомодовый OM4 50/125 $145.00
- Совместимость с NVIDIA MFP7E20-N015, 15 волокон, 49 м (8 футов) с низкими вносимыми потерями, гнездо к гнезду, от MPO12 до 2xMPO12, полярность B от APC до APC LSZH, многомодовый OM3 50/125 $67.00
- NVIDIA MFS1S90-H015E Совместимый активный оптический кабель длиной 15 м (49 футов) от 2x200G QSFP56 до 2x200G QSFP56 PAM4 Breakout Active Optical Cable $830.00
- NVIDIA MMA4Z00-NS-FLT Совместимый двухпортовый OSFP 800 Гбит/с 2x400G SR8 PAM4 850 нм 100 м DOM Двойной модуль оптического трансивера MPO-12 MMF $850.00
- Совместимый с NVIDIA MMS4X00-NM-FLT 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Dual MTP/MPO-12 SMF Модуль оптического трансивера $1200.00
- NVIDIA MFS1S50-H015V Совместимый активный оптический кабель 15 м (49 футов) 200G InfiniBand HDR QSFP56 — 2x100G QSFP56 PAM4 Breakout Active Optical Cable $630.00
- NVIDIA MMA4Z00-NS Совместимый двухпортовый OSFP 800 Гбит/с 2x400G SR8 PAM4 850 нм 100 м DOM Двойной модуль оптического трансивера MPO-12 MMF $750.00
- NVIDIA MMS4X00-NM Совместимый двухпортовый OSFP 800 Гбит/с 2x400G PAM4 1310nm 500m DOM Dual MTP/MPO-12 SMF Модуль оптического трансивера $1100.00
- Плата адаптера NVIDIA Mellanox MCX653105A-HDAT-SP ConnectX-6 InfiniBand/VPI, HDR/200GbE, однопортовый QSFP56, PCIe3.0/4.0 x16, высокий кронштейн $1400.00
- Mellanox MCP7H50-H003R26 Совместимый 3-метровый (10 футов) Infiniband HDR 200G QSFP56 — 2x100G QSFP56 PAM4 Пассивный медный кабель с прямым подключением $75.00
- Mellanox MFS1S50-H003E Совместимый активный оптический кабель 3 м (10 футов) 200G HDR QSFP56 — 2x100G QSFP56 PAM4 Breakout Active Optical Cable $605.00
- Плата адаптера NVIDIA Mellanox MCX75510AAS-NEAT ConnectX-7 InfiniBand/VPI, NDR/400G, однопортовый OSFP, PCIe 5.0x 16, высокий кронштейн $1650.00