Как мы все знаем, взрывной рост объемов интернет-данных привел к серьезным проблемам с вычислительной мощностью центров обработки данных.
Вычисления, хранение и сеть — это три движущие силы развития центров обработки данных.
С развитием ЦП, ГП и ПЛИС вычислительная мощность значительно возросла. Хранилище С появлением твердотельных накопителей (SSD) задержка доступа к данным значительно сократилась.
Однако развитие сети явно отстает, задержка передачи высока, постепенно становясь узким местом производительности ЦОД.
В центре обработки данных 70 % трафика приходится на восточно-западный трафик (трафик между серверами). Этот трафик обычно обрабатывает поток данных во время высокопроизводительных распределенных параллельных вычислений в центрах обработки данных и передается по сетям TCP/IP.
Если скорость передачи TCP/IP между серверами увеличится, производительность центра обработки данных также возрастет.
Передача TCP/IP между серверами
Процесс отправки сервером A данных на сервер B в центре обработки данных выглядит следующим образом:
- Данные управления ЦП копируются из буфера приложения А в буфер операционной системы.
- Данные управления процессором Добавьте заголовки TCP и IP в буфер операционной системы (ОС).
- Добавьте заголовки пакетов TCP и IP для отправки данных на сетевую карту и добавьте заголовки пакетов Ethernet.
- Пакет отправляется сетевым адаптером и передается на сетевой адаптер сервера B по сети Ethernet.
- Сетевой адаптер сервера B выгружает Ethernet-заголовок пакета и передает его в буфер операционной системы.
- ЦП выгружает заголовки пакетов TCP и IP в буфер операционной системы.
- ЦП управляет передачей неустановленных данных в буфер приложений.
Как видно из процесса передачи данных, данные несколько раз копируются в буфер сервера, а заголовки TCP и IP необходимо добавлять или удалять в операционной системе. Эти операции не только увеличивают задержку передачи данных, но и потребляют много ресурсов ЦП, что не может удовлетворить требования высокопроизводительных вычислений.
Итак, как построить высокопроизводительную сеть центра обработки данных с высокой пропускной способностью, сверхмалой задержкой и низкой нагрузкой на ЦП?
Технология RDMA может сделать это.
Что такое РДМА
Удаленный прямой доступ к памяти (RDMA) — это новая технология доступа к памяти, которая позволяет серверам считывать и записывать данные памяти с других серверов с высокой скоростью без трудоемкой обработки операционной системой/ЦП.
RDMA не является новой технологией и широко используется в высокопроизводительных вычислениях (HPC). С развитием спроса на высокую пропускную способность и малую задержку в центрах обработки данных, RDMA постепенно применяется в некоторых сценариях, требующих высокой производительности центров обработки данных.
Например, в 2021 году объем транзакций крупного онлайн-центра на фестивале покупок достиг нового рекорда в более чем 500 миллиардов юаней, увеличившись почти на 10% по сравнению с 2020 годом. За таким огромным объемом транзакций стоит массивная обработка данных. Онлайн-торговый центр использует технологию RDMA для поддержки высокопроизводительной сети и обеспечения плавного шоппинга.
Давайте рассмотрим некоторые приемы RDMA для уменьшения задержки.
RDMA напрямую передает данные серверного приложения из памяти на интеллектуальную сетевую карту (INIC) (упрощенный протокол RDMA), а аппаратное обеспечение INIC завершает инкапсуляцию пакетов передачи RDMA, освобождая операционную систему и ЦП.
Это дает RDMA два основных преимущества:
- Нулевая копия: Процесс, который устраняет необходимость копировать данные в ядро операционной системы и обрабатывать заголовки пакетов, что приводит к значительному сокращению задержки при передаче.
- Обход ядра и разгрузка протокола: ядро операционной системы не задействовано, и в пути данных нет сложной логики заголовка. Это уменьшает задержку и значительно экономит ресурсы ЦП.
Три основные сети RDMA
В настоящее время существует три типа сетей RDMA, а именно: InfiniBand, RoCE (RDMA через конвергентный Ethernet) и iWARP (RDMA через TCP).
Первоначально RDMA был эксклюзивным для сетевой архитектуры Infiniband для обеспечения надежной передачи на аппаратном уровне, в то время как RoCE и iWARP являются технологиями RDMA на основе Ethernet.
InfiniBand
- InfiniBand — это сеть, разработанная специально для RDMA.
- Режим переадресации Cut-Through используется для уменьшения задержки пересылки.
- Механизм управления потоком на основе кредита гарантирует отсутствие потери пакетов.
- Для этого требуются выделенные сетевые адаптеры, коммутаторы и маршрутизаторы InfiniBand, которые имеют самую высокую стоимость построения сети.
РОСЕ
- Транспортным уровнем является протокол InfiniBand.
- RoCE поставляется в двух версиях: RoCEv1 реализуется на канальном уровне Ethernet и может передаваться только на уровне L2; RoCEv2 размещает RDMA на основе UDP и может быть развернут в сетях уровня 3.
- Поддержка выделенного интеллектуального сетевого адаптера RDMA, отсутствие необходимости в выделенном коммутаторе и маршрутизаторе (поддержка технологии ECN/PFC, снижение скорости потери пакетов), самая низкая стоимость построения сети.
iWARP
- Транспортным уровнем является протокол iWARP.
- iWARP реализован на уровне TCP протокола Ethernet TCP/IP и поддерживает передачу на уровне L2/L3. Соединения TCP в крупномасштабных сетях потребляют много ресурсов ЦП, поэтому используются редко.
- Для iWARP требуются только сетевые адаптеры для поддержки RDMA, без частных коммутаторов и маршрутизаторов и затрат между InfiniBand и RoCE.
Благодаря передовым технологиям, но высокой цене, Infiniband ограничивается высокопроизводительными вычислениями HPC. С появлением RoCE и iWARPC затраты на RDMA снижаются, а технология RDMA популяризируется.
Использование этих трех типов сетей RDMA в высокопроизводительных хранилищах и вычислительных центрах обработки данных может значительно снизить задержку при передаче данных и обеспечить более высокую доступность ресурсов ЦП для приложений.
Сеть InfiniBand обеспечивает высочайшую производительность для центров обработки данных с задержкой передачи всего 100 наносекунд, что на порядок ниже, чем у устройств Ethernet.
Сети RoCE и iWARP обеспечивают высокую производительность центров обработки данных и размещают RDMA через Ethernet, используя все преимущества высокой производительности RDMA и низкой загрузки ЦП, при этом не требуя больших затрат на создание.
RoCE на основе UDP работает лучше, чем iWARP на основе TCP, и в сочетании с технологией управления потоком Ethernet без потерь решает проблему чувствительности к потере пакетов. Сеть RoCE широко используется в высокопроизводительных центрах обработки данных в различных отраслях.
Заключение
С развитием 5G, искусственного интеллекта, промышленного Интернета и других новых областей применение технологии RDMA будет становиться все более и более популярным, и RDMA внесет большой вклад в производительность центров обработки данных.
Сопутствующие товары:
- Совместимый с NVIDIA MMA4Z00-NS400 400G OSFP SR4 Flat Top PAM4 850 нм 30 м на OM3/50 м на OM4 MTP/MPO-12 Многомодовый модуль оптического трансивера FEC $650.00
- NVIDIA MMA4Z00-NS-FLT Совместимый двухпортовый OSFP 800 Гбит/с 2x400G SR8 PAM4 850 нм 100 м DOM Двойной модуль оптического трансивера MPO-12 MMF $850.00
- NVIDIA MMA4Z00-NS Совместимый двухпортовый OSFP 800 Гбит/с 2x400G SR8 PAM4 850 нм 100 м DOM Двойной модуль оптического трансивера MPO-12 MMF $750.00
- NVIDIA MMS4X00-NM Совместимый двухпортовый OSFP 800 Гбит/с 2x400G PAM4 1310nm 500m DOM Dual MTP/MPO-12 SMF Модуль оптического трансивера $1100.00
- Совместимый с NVIDIA MMS4X00-NM-FLT 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Dual MTP/MPO-12 SMF Модуль оптического трансивера $1200.00
- Совместимый с NVIDIA MMS4X00-NS400 400G OSFP DR4 Flat Top PAM4 1310nm MTP/MPO-12 500m SMF FEC Модуль оптического трансивера $800.00
- Mellanox MMA1T00-HS, совместимый с 200G Infiniband HDR QSFP56 SR4, 850 нм, 100 м, MPO-12, модуль оптического приемопередатчика APC OM3/OM4 FEC PAM4 $200.00
- NVIDIA MCA7J60-N004 Совместимый кабель длиной 4 м (13 футов) 800G с двумя портами OSFP для 2x400G OSFP InfiniBand NDR Breakout Active Copper Cable $800.00
- Совместимый модуль оптического приемопередатчика Cisco QDD-400G-SR8-S 400G QSFP-DD SR8 PAM4 850 нм 100 м OM4 MPO-16 DDM MMF $180.00
- Arista Networks QDD-400G-SR8 совместимый 400G QSFP-DD SR8 PAM4 850nm 100m MTP / MPO OM3 FEC модуль оптического трансивера $180.00
- Arista Networks QDD-400G-DR4 совместимый 400G QSFP-DD DR4 PAM4 1310 нм 500 м MTP / MPO SMF FEC модуль оптического трансивера $450.00
- Juniper Networks QDD-400G-FR4 совместимый 400G QSFP-DD FR4 PAM4 CWDM4 2 км LC SMF FEC модуль оптического приемопередатчика $600.00