Infiniband: a solução de rede definitiva para clusters e GPUs de alta velocidade

Na computação de alto desempenho (HPC), nada é mais importante do que a transferência de dados eficiente e confiável. banda infinita A tecnologia é conhecida por sua grande largura de banda e baixos tempos de latência, tornando-a ideal para clusters e sistemas rápidos que usam GPUs. Esta postagem do blog analisa o que compõe o Infiniband, como ele pode ser benéfico e onde pode ser usado. Ao aprenderem sobre o que a Infiniband pode fazer e como funciona, as empresas poderão fazer melhores escolhas sobre como devem configurar os seus ambientes HPC, o que, por sua vez, levará a um processamento de dados mais rápido, sem quaisquer interrupções.

Conteúdo

O que é Infiniband e como funciona?

O que é Infiniband e como funciona?
fonte da imagem: https://media.fs.com/

Compreendendo a tecnologia Infiniband

Para atender às necessidades dos ambientes HPC, o Infiniband é uma tecnologia de rede super-rápida. Ele é executado em uma topologia de malha comutada, o que ajuda a criar caminhos eficientes para comunicação entre nós. A arquitetura do Infiniband compreende switches que roteiam pacotes de dados e Host Channel Adapters (HCAs) para conectar dispositivos finais. Através do acesso remoto direto à memória (RDMA), o Infiniband permite transferências diretas de memória entre sistemas, minimizando assim a latência e reduzindo o envolvimento da CPU. Ele pode atingir taxas de transferência de dados de até 200 Gbps e tem uma latência tão baixa quanto 500 nanossegundos, o que o torna perfeito para aplicações como computação paralela ou cargas de trabalho de aprendizado de máquina, onde há necessidade de troca rápida de informações.

Arquitetura e especificações Infiniband

Para suportar os requisitos de transmissão de dados pesados ​​dos ambientes HPC, a arquitetura Infiniband foi projetada propositadamente. Existem dois componentes principais em sua essência: adaptadores de canal de host (HCAs) e switches. Os HCAs atuam como uma interface entre os dispositivos finais (por exemplo, servidores, sistemas de armazenamento) e a estrutura InfiniBand. Esses adaptadores possuem recursos RDMA que permitem acesso direto à memória entre dispositivos sem envolver a CPU, reduzindo significativamente a latência.

Os switches, por outro lado, roteiam pacotes de dados pela rede, garantindo caminhos de comunicação eficientes com atraso mínimo entre os nós. Várias velocidades e configurações de link são suportadas pelo InfiniBand, como 1x pista, que pode ser agregada para obter larguras de banda mais altas, como 4x ou até 12x pistas. A implementação atualmente utilizada suporta velocidades de até 200 Gbps por porta, ou seja, EDR (Enhanced Data Rate) ou HDR (High Data Rate); isso fornece rendimento suficiente para aplicações que exigem muito, como simulações de dinâmica molecular, modelagem climática ou aprendizado de máquina em grande escala.

Além disso, mecanismos de QoS (Qualidade de serviço) que priorizam o tráfego de dados críticos, mantendo níveis de desempenho previsíveis, foram incluídos no InfiniBand. Além disso, a escalabilidade permite interconexões sem bloqueio entre milhares de nós, permitindo assim que as redes cresçam juntamente com as capacidades computacionais. É por causa deste forte princípio de design que é possível que o InfiniBand sirva como infraestrutura de backbone para os supercomputadores modernos.

Principais recursos do Infiniband

  1. Tempo muito rápido e muito curto: Infiniband oferece taxas de transferência de dados ultra-altas, atualmente 200 Gbps por porta com HDR, e comunicação consistentemente de baixa latência. É por isso que é perfeito para aplicações HPC que necessitam de trocas rápidas de dados, como análises em tempo real ou simulações científicas.
  2. RDMA (Acesso Remoto Direto à Memória): Uma das características mais marcantes do banda infinita é a sua capacidade RDMA que permite a transferência direta de dados entre locais de memória de diferentes dispositivos sem intervenção da CPU. Isto reduz drasticamente a latência e deixa mais recursos de CPU para outras tarefas, melhorando assim o desempenho geral do sistema.
  3. Escalabilidade: O Infiniband foi projetado para oferecer boa escalabilidade – ele pode conectar milhares de nós em grandes clusters HPC. A arquitetura sem bloqueio garante que a rede não se tornará um gargalo enquanto cresce, o que permite realizar cálculos em larga escala e executar aplicativos com uso intensivo de dados simultaneamente.
  4. Qualidade de Serviço (QoS): Mecanismos de QoS são integrados no Infiniband para controlar e priorizar o tráfego de rede. Esta característica torna-se essencial quando existem fluxos críticos que devem ter precedência sobre outros, garantindo assim níveis sustentados de desempenho em tais ambientes.
  5. Topologias e configurações flexíveis: A malha suporta várias topologias, como Fat Tree, Mesh ou Torus, permitindo assim que as redes correspondam a requisitos específicos de desempenho, bem como a necessidades de escalabilidade. Além disso, o suporte a diferentes configurações de faixa (1x, 4x, 12x) oferece flexibilidade na obtenção das larguras de banda desejadas.
  6. Confiabilidade e tolerância a falhas: Mecanismos avançados de detecção/correção de erros são usados ​​no Infiniband para que a integridade dos dados possa ser mantida durante a transmissão, garantindo ao mesmo tempo que a comunicação confiável ocorra dentro do sistema o tempo todo, ou seja, o controle de fluxo no nível do link juntamente com o roteamento adaptativo contribuem muito em direção a alta confiabilidade, portanto, aplicações de missão crítica aplicáveis.

Como o Infiniband se compara à Ethernet?

ACC infinibanda OSFP

Infiniband vs Ethernet: A batalha pela baixa latência

Quando a Infiniband é comparada com a Ethernet em termos de baixa latência, normalmente observa-se que a Infiniband tem um desempenho melhor que a Ethernet devido à sua construção e design. Entre os recursos principais do Infiniband estão os menores custos de comunicação, o que leva a uma diminuição na latência. Além disso, o Acesso Remoto Direto à Memória (RDMA) é suportado por esta tecnologia, permitindo assim a transferência de dados entre computadores diretamente da memória sem envolver a CPU, reduzindo assim atrasos e liberando poder de processamento.

Pelo contrário, sabe-se que a Ethernet tem uma cobertura mais ampla e é mais barata do que outras redes, especialmente agora com Data Center Bridging (DCB), bem como RDMA over Converged Ethernet (RoCE). Ainda assim, mesmo depois de essas melhorias terem sido feitas, a Ethernet sempre mostra latências mais altas em geral do que a Infiniband.

Assim, para aplicações que exigem latência ultrabaixa juntamente com alto rendimento, como simulações complexas ou computação de alto desempenho (HPC), o InfiniBand seria preferido na maioria das vezes.

Infiniband fornece alta largura de banda: comparando velocidades e rendimento

O Infiniband supera o Ethernet em termos de largura de banda e taxa de transferência. Na verdade, o Infiniband HDR (High Data Rate) oferece velocidades de até 200 Gbps por porta, o que é muito mais rápido do que os 400 Gbps mais avançados ou mesmo os 100 Gbps comumente encontrados no Ethernet. Além disso, muitas faixas podem ser agregadas com o Infiniband para que sua eficiência de transferência de dados se torne alta devido à escalabilidade de acordo com as necessidades do aplicativo para taxa de transferência. A arquitetura dessa tecnologia foi projetada do zero com grandes quantidades de processamento de baixa latência incorporadas a ela, tornando o InfiniBand bem adequado para casos de uso que envolvem grandes volumes de informações, como aqueles encontrados em clusters HPC e data centers de hiperescala.

Confiabilidade e escalabilidade: vantagens da Infiniband sobre Ethernet

Comparado à Ethernet, o Infiniband é mais confiável e escalável, o que é necessário para suportar o funcionamento de grandes sistemas. Mesmo em longas distâncias, eles possuem métodos de detecção e correção de erros que são fortes o suficiente para manter a integridade dos dados, reduzindo assim as taxas de retransmissão e garantindo um desempenho uniforme. Adicionalmente, possui um funcionamento determinístico que garante previsibilidade em termos de latência; esse recurso torna-se importante ao lidar com aplicações que necessitam de processos estreitamente coordenados.

Ainda na mesma nota, os recursos de QoS (Qualidade de Serviço) encontrados no Infiniband permitem a alocação de largura de banda de forma determinística, garantindo assim que o desempenho seja sustentado em diferentes cargas de trabalho com requisitos variados. Para poder escalar bem, o InfiniBand pode suportar efetivamente um grande número de nós, permitindo assim que os recursos de computação cresçam sem qualquer declínio perceptível no desempenho. Isto, portanto, torna-os a escolha mais adequada para ambientes como clusters de supercomputadores ou centros de dados de nível empresarial, onde grandes quantidades de informação precisam de ser transferidas e processadas frequentemente em vastas áreas.

Quais são as vantagens das redes Infiniband?

Quais são as vantagens das redes Infiniband?

Baixa latência e alto desempenho

As redes InfiniBand têm reputação de serem muito rápidas, por isso são conhecidas como redes de baixa latência e alto desempenho. De acordo com quem sabe, foi relatado que o InfiniBand poderia cair para 100 ns de latência, muito menos do que a Ethernet jamais poderia. Esse período de tempo superbaixo garante a chegada rápida dos pacotes para que os programas aplicativos sensíveis à latência possam ter um melhor desempenho.

Além disso, o InfiniBand ostenta suporte para rendimento muito alto: os sistemas de hoje oferecem até 200 Gigabits por segundo (Gbps) por conexão. Essa alta largura de banda é necessária ao lidar com transferências massivas de dados dentro de clusters HPC ou entre data centers. Comparando com Ethernet que às vezes experimenta latências mais altas e taxas de dados mais baixas; isso torna o InfiniBand uma solução eficiente e robusta para computação de alto desempenho entre outras aplicações exigentes.

Acesso remoto direto à memória (RDMA)

De acordo com fontes confiáveis, o Acesso Remoto Direto à Memória (RDMA) é um recurso importante nas redes Infiniband que permite a transferência de dados entre a memória de dois computadores sem utilizar seus sistemas operacionais. Isso cria um caminho direto para os dados que resulta em menos latência e também em baixas sobrecargas de CPU. O RDMA melhora o desempenho ao permitir redes de cópia zero, ou seja, onde as informações se movem diretamente do buffer do aplicativo para a rede, em vez de passar primeiro por um buffer do sistema operacional, como acontece com os protocolos de rede tradicionais.

Alegadamente, esta tecnologia pode atingir latências tão baixas quanto um microssegundo e suportar transferências de dados de várias centenas de gigabits por segundo. Com tais velocidades, fica claro por que o RDMA seria mais útil em aplicações que necessitam de poder de processamento em tempo real aliado a alto rendimento; por exemplo, sistemas de negociação financeira ou bases de dados distribuídas utilizadas na análise de dados em grande escala. O desvio do kernel também é suportado pelo RDMA, que permite que os aplicativos se comuniquem diretamente com o hardware da rede, reduzindo ainda mais a latência e melhorando a eficiência das transferências de dados.

Em resumo, o Acesso Remoto Direto à Memória (RDMA) oferece altas larguras de banda, baixas latências e utilização eficiente da CPU, provando ser uma tecnologia essencial sempre que houver necessidade de rapidez no acesso à informação ou melhoria de desempenho.

HDR Infiniband e perspectivas futuras

O próximo passo na tecnologia de rede é representado pelo HDR (High Data Rate) Infiniband, que foi projetado para atender às demandas de data centers e ambientes de computação de alto desempenho. 200 Gbps podem ser alcançados por este sistema quando se trata de transferir informações de um ponto para outro, atendendo assim a requisitos de taxas de dados mais altas com menor latência.

Muitos recursos diferenciam o HDR Infiniband de seus antecessores. Uma delas é que ele usa tecnologia de silício switch de última geração que melhora a integridade do sinal e os recursos de correção de erros. Isto torna a transmissão de dados mais confiável, mesmo em distâncias mais longas, tornando-a adequada para sistemas distribuídos de grande escala.

Outro aspecto importante do HDR Infiniband é seu papel futuro como EDR (Extreme data Rate) e além de facilitador, promovendo assim simulações complexas, análises em grande escala e aplicações em tempo real que necessitam de latência ultrabaixa. Além disso, dados os avanços nas cargas de trabalho de IA/ML, haverá uma necessidade crescente de que tais redes tenham altas larguras de banda, mas baixas latências, como as fornecidas pelo HDR Infiniband.

Ao processar rapidamente grandes quantidades de informações, a implantação dessas redes pode acelerar avanços em pesquisas científicas em vários campos, como veículos autônomos ou realidade virtual, entre outros. Para concluir, isso significa que o HDR InfiniBand não apenas oferece uma solução para as necessidades atuais de rede de alto desempenho, mas também indica uma abordagem voltada para o futuro em direção ao suporte de aplicativos computacionais de próxima geração, bem como aplicativos intensivos em dados.

Como o Infiniband é usado em data centers e HPC?

NVIDIA OM3

Infiniband em computação de alto desempenho (HPC)

Os supercomputadores mais rápidos do mundo contam com o Infiniband para permitir transferência de dados em alta velocidade entre nós. Isto é necessário para simulações em grande escala, pesquisas científicas e análises, entre outras coisas. Ainda mais importante, ele permite que os clusters processem esses aplicativos mais rápido do que nunca, conectando diretamente dispositivos de computação em um sistema HPC entre si, criando uma arquitetura de computador paralela impulsionada pela rede que elimina os gargalos tradicionais associados ao armazenamento compartilhado ou ao acesso à memória. métodos, permitindo assim que cada nó acesse seus próprios recursos independentemente dos outros.

Integrando Infiniband em data centers

Nos data centers atuais, a integração do Infiniband aumenta o desempenho e a escalabilidade, fornecendo uma interconexão de alta velocidade que é essencial para tarefas com uso intensivo de dados. Para uma comunicação rápida entre servidores, sistemas de armazenamento e outros dispositivos de rede em particular, é implantado com este objetivo, tornando mais eficientes as operações de um data center. Possui recursos avançados, como acesso remoto direto à memória (RDMA), que reduz a sobrecarga da CPU, aumentando assim a velocidade de transferência das informações. Além disso, seu próprio design expansível permite adicionar capacidade passo a passo, garantindo produtividade contínua durante um período prolongado onde a demanda pode ter crescido mais do que antes dentro de tal instalação. Portanto, através do uso da tecnologia InfiniBand, podem ser alcançadas taxas de transferência mais altas nos data centers, juntamente com latências mais baixas, aumentando assim a eficiência necessária para suportar diferentes aplicações, desde computação em nuvem até análise de big data e aprendizado de máquina.

Infiniband para clusters de GPU e IA

Os clusters de GPU e aplicativos de IA dependem do Infiniband porque ele pode lidar bem com requisitos de alta largura de banda e baixa latência. À medida que os modelos de IA se tornam mais complexos e as cargas de trabalho de GPU maiores, as interconexões do Infiniband permitem o compartilhamento rápido de dados entre GPUs, o que, por sua vez, acelera os tempos de treinamento e inferência. Essas melhorias de desempenho são possíveis por recursos como suporte a RDMA ou descarregamento de hardware, o que reduz a utilização da CPU e também melhora a eficiência da transferência de dados. Com a implantação em larga escala do InfiniBand para sistemas de IA, há minimização de gargalos para que os recursos da GPU possam ser utilizados de forma otimizada, levando a cálculos mais rápidos e também à eficiência de dimensionamento aprimorada de modelos de inteligência artificial, ao mesmo tempo em que permite o processamento rápido de grandes quantidades de dados com níveis de precisão mais altos por meio dessa tecnologia. Tornando possível processar conjuntos de dados maiores com mais rapidez e maior precisão. Assim, o uso do Infiniband em clusters de GPU aprimora muito os recursos da pesquisa de IA, variando de algoritmos de aprendizado profundo até análises preditivas aplicáveis ​​em vários campos da vida.

Quais são os componentes de uma rede Infiniband?

Adaptador NVIDIA Infiniband

Switches e adaptadores Infiniband

Os switches e adaptadores InfiniBand são componentes essenciais das redes InfiniBand. Os switches fabric, também conhecidos como switches Infiniband, são responsáveis ​​por encaminhar pacotes de dados pela rede. Esses switches conectam vários dispositivos para permitir comunicação rápida e transferência de dados entre eles. Eles possuem números de porta diferentes que podem variar de 8 a 648 portas; eles interconectam várias topologias como Fat-Tree e Clos necessárias para dimensionar a infraestrutura de rede de maneira eficaz.

Por outro lado, os adaptadores de canal host (HCAs), também chamados de adaptadores Infiniband, são instalados em dispositivos de rede, como servidores ou sistemas de armazenamento, permitindo sua conexão a uma malha InfiniBand. Os HCAs facilitam o acesso direto à memória (RDMA) através do Infiniband, o que reduz a sobrecarga da CPU, melhorando assim as taxas de transferência de informações. Eles suportam recursos importantes como QDR (Quad Data Rate) e FDR (Fourteen Data Rate), ambos necessários para atender aos requisitos de alto rendimento e baixa latência em data centers modernos que atendem aplicativos.

Juntos, esses dois tipos de dispositivos constituem a parte principal de qualquer rede InfiniBand — eles servem propósitos diferentes, mas trabalham para alcançar uma comunicação eficiente e confiável em uma ampla gama de aplicações de computação de alto desempenho.

Cabos e conectores Infiniband

Para criar uma rede InfiniBand, você precisa de cabos e conectores. Esses dois componentes conectam switches, adaptadores e outros dispositivos da rede. Normalmente, esses cabos vêm em dois tipos: cobre e fibra óptica. Os cabos de cobre são utilizados para distâncias mais curtas porque são mais baratos e fáceis de instalar do que a fibra óptica; SDR (Single Data Rate), DDR (Double Data Rate) e QDR (Quad Data Rate) são algumas das velocidades suportadas que os cabos de cobre podem suportar. Para distâncias maiores ou maiores demandas de desempenho, é preferível usar cabo de fibra óptica, pois permite mais largura de banda com menos perda de sinal.

Os conectores InfiniBand possuem vários formatos padronizados, como QSFP (Quad Small Form-factor Pluggable) que pode suportar taxas de transferência de dados com velocidade QDR, FDR e EDR devido ao seu design de alta densidade; este conector é versátil o suficiente para poder ser usado com cabos de cobre e fibra óptica, o que torna o planejamento de rede flexível e escalável.

Concluindo, os cabos infiniband, juntamente com os seus conectores, servem como elementos cruciais na criação de uma infraestrutura de rede forte e adaptável de alto desempenho, onde podem ser necessárias diferentes combinações de taxas/distância para uma comunicação eficiente dentro de uma rede.

Configuração de porta e nó

Em uma rede InfiniBand, a configuração de portas e nós é o processo de configuração e gerenciamento de portas de rede, bem como de nós, com o objetivo de otimizar o desempenho e a confiabilidade. Uma porta, neste caso, refere-se à interface através da qual um dispositivo se conecta à rede; switches ou adaptadores podem ter muitas portas para suportar múltiplas conexões. Por outro lado, os nós são dispositivos ou sistemas individuais conectados a uma rede, como servidores e dispositivos de armazenamento, entre outros.

Configurar portas envolve fornecer endereços a elas, além de garantir que estejam alocadas adequadamente para que a carga nas redes seja equilibrada. Os switches InfiniBand usam algoritmos avançados para mapeamento de portas e otimização de caminhos de dados. Isso permite a alocação dinâmica que maximiza o rendimento em todos os pontos e minimiza atrasos em qualquer seção do sistema.

Por outro lado, ao configurar um nó é necessário especificar alguns parâmetros de rede como GUIDs (Identificadores Globalmente Únicos) do nó, bem como políticas para gerenciadores de sub-redes. O gerenciador de sub-rede descobre todos os nós dentro de sua descrição de topologia de malha e então configura cada um deles junto com suas interconexões. Ele realiza a resolução de caminhos, entre outras tarefas, como monitoramento de desempenho e gerenciamento de falhas, o que garante a operação eficiente das redes, lidando prontamente com possíveis problemas onde quer que eles ocorram.

A configuração de portas e nós deve ser feita de forma eficaz para que a comunicação de alta velocidade caracterizada por baixa latência em redes InfiniBand seja alcançada. Os administradores devem, portanto, planejar cuidadosamente esses componentes enquanto os gerenciam, para que a transmissão contínua de dados possa ocorrer, garantindo assim um desempenho robusto de tais ambientes usados ​​para fins de computação de alto desempenho.

Perguntas Frequentes (FAQs)

P: O que é Infiniband e como ele difere de outras tecnologias de rede?

R: Usado principalmente em ambientes de computação de alto desempenho, o InfiniBand é uma tecnologia de rede de baixa latência e alta velocidade. Possui taxas de transferência de dados muito superiores às das redes Ethernet tradicionais e também latências mais baixas, o que o torna útil para interconectar servidores, dispositivos de armazenamento e GPUs. Os supercomputadores também usam essa tecnologia porque ela lida com eficiência com grandes quantidades de dados.

P: Quem gerencia a especificação Infiniband?

R: A InfiniBand Trade Association (IBTA) mantém e desenvolve a especificação InfiniBand. A IBTA garante que os produtos de vários fornecedores possam trabalhar juntos, criando assim uma ampla gama de soluções.

P: Quais são os principais benefícios de usar o Infiniband para transferência de dados?

R: Em comparação com Gigabit Ethernet ou Fibre Channel – que são consideradas tecnologias de rede convencionais – menor latência, maior rendimento e melhor escalabilidade estão entre as muitas vantagens do uso de uma banda infinita para transferência de dados. Tornando-o assim adequado em cenários onde há necessidade de movimentação rápida e confiável de informações, como Datacenters ou clusters HPC.

P: O Infiniband pode ser usado em conjunto com redes Ethernet?

R: Sim; por meio de gateways ou adaptadores adequados que permitam a integração entre ambos, as organizações ainda podem aproveitar velocidades mais altas oferecidas pelas infinibands, mantendo intacta sua compatibilidade com as infraestruturas Ethernet existentes.

P: Quais taxas de transferência de dados o Infiniband pode suportar?

R: Com NDR (Next Data Rate) de 400 Gbps (Gigabits por segundo), o InfiniBand pode lidar até mesmo com aplicações muito exigentes, como cargas de trabalho de IA ou simulações científicas, que exigem quantidades extremamente altas de taxa de transferência.

P: Como a Infiniband garante a qualidade de serviço (QoS) destinada a aplicações críticas?

R: O tráfego pode ser priorizado e a largura de banda pode ser alocada por banda infinita para que a QoS seja suportada. Isso garante que programas importantes obtenham recursos de rede suficientes para funcionarem da melhor forma. Faixas virtuais e níveis de serviço estão entre os recursos que ajudam a garantir uma transferência de dados consistente e confiável.

P: Quais são alguns componentes de uma arquitetura de rede InfiniBand?

R: Alguns componentes encontrados em uma arquitetura de rede InfiniBand incluem adaptadores de canal host (HCAs), adaptadores de canal alvo (TCAs), switches InfiniBand e adaptadores de rede, que juntos formam uma estrutura comutada usada para interconectar servidores e dispositivos de armazenamento, permitindo assim comunicação em alta velocidade. entre eles.

P: Como o Infiniband consegue menor latência em comparação com outras tecnologias de rede?

R: Diferentemente das redes Ethernet tradicionais, essa tecnologia atinge latência mais baixa utilizando pilha de protocolo otimizada, bem como design de hardware eficiente. Para fazer isso, ela usa HCAs que descarregam tarefas de processamento da CPU, reduzindo assim o tempo necessário para mover dados pela rede; resultando, portanto, em latências muito mais baixas.

P: Quais empresas fornecem produtos e soluções Infiniband?

R: Os principais fornecedores desses tipos de itens são NVIDIA (antiga Mellanox), Intel, juntamente com outras empresas especializadas em computação de alto desempenho e tecnologia de data center. Eles oferecem clusters de velocidades variadas por meio de diferentes modelos, como adaptadores ou switches, entre outros componentes necessários para a construção de clusters/interconexões de alta velocidade.

P: O Infiniband funciona bem com a conexão de GPUs em computação de alto desempenho?

R: Sim, faz isso de forma eficiente porque suas baixas latências aliadas às altas taxas de transferência de dados permitem uma conexão ideal entre esses dois dispositivos, tornando a comunicação eficaz ao realizar tarefas computacionais como aprendizagem profunda ou simulações científicas que exigem tal funcionalidade.

Deixe um comentário

Voltar ao Topo