AI 산업의 '슈퍼볼'이 시작됐고, 오늘의 스타는 젠슨 황입니다.
전 세계의 기술 기업가, 개발자, 과학자, 투자자, NVIDIA 고객, 파트너, 미디어 등이 검은 가죽 재킷을 입은 남자를 만나러 작은 도시인 산호세로 모여들었습니다.
황의 GTC 2025 기조연설은 10월 00일 오전 18시(현지 시간)에 시작되었지만, 오전 6시경에는 Doges AI 설립자 Abraham Gomez가 이미 SAP 센터 줄에서 두 번째 자리를 확보하여 "일선 좌석을 차지"하기를 바랐습니다. 오전 00시경에는 줄을 서서 기다리는 사람이 8km가 넘었습니다.
음악 세대 스타트업 Wondera의 CEO인 빌은 "젠슨에 대한 헌사"로 자신의 검은색 가죽 재킷을 입고 앞줄에 앉았습니다. 군중이 열광하는 동안, 황은 작년의 록스타 에너지에 비해 더 차분한 어조를 보였습니다. 이번에 그는 연설 내내 "확장"을 반복해서 강조하면서 NVIDIA의 전략을 재확인하고자 했습니다.
작년에 황은 "미래는 창조적인 것"이라고 선언했고, 올해는 "AI가 전환점에 있다"고 주장했습니다. 그의 기조연설은 세 가지 주요 발표에 초점을 맞췄습니다.
1. Blackwell GPU가 본격적인 생산에 돌입
황은 "수요가 엄청나고, 그럴 만한 이유가 있습니다. AI가 변곡점에 있기 때문입니다."라고 말했습니다. 그는 AI 추론 시스템과 에이전트 훈련 워크로드로 인해 컴퓨팅 파워에 대한 수요가 증가하고 있다고 강조했습니다.
2. Dynamo AI 소프트웨어가 탑재된 Blackwell NVLink 72
새로운 플랫폼은 NVIDIA Hopper보다 40배 높은 AI 팩토리 성능을 제공합니다. Huang은 "AI를 확장함에 따라 추론이 향후 XNUMX년 동안 워크로드를 지배할 것입니다."라고 설명했습니다. Blackwell Ultra를 소개하면서 그는 고전적인 대사를 되살렸습니다. "더 많이 살수록 더 많이 절약할 수 있습니다. 사실, 더 좋은 점은 더 많이 살수록 더 많이 벌 수 있다는 것입니다."
3. NVIDIA의 AI 인프라를 위한 연간 로드맵
이 회사는 클라우드, 엔터프라이즈, 로봇공학이라는 세 가지 AI 인프라 기둥을 설명했습니다.

황은 또한 두 가지 새로운 GPU를 공개했습니다. Blackwell Ultra GB300(업그레이드된 Blackwell)과 Rubin Ultra를 탑재한 차세대 Vera Rubin 아키텍처입니다.
엔비디아는 두 가지 새로운 GPU를 공개했습니다. 작년의 Blackwell을 업그레이드한 버전인 Blackwell Ultra GB300과 Rubin Ultra와 함께 Vera Rubin이라는 완전히 새로운 칩 아키텍처입니다.
젠슨 황의 스케일링 법칙에 대한 확고한 믿음은 여러 세대에 걸친 칩 아키텍처의 발전을 통해 이룬 발전에 뿌리를 두고 있습니다.
그의 기조연설은 주로 "대규모 AI 추론을 위한 극한 컴퓨팅"에 초점을 맞췄습니다.
AI 추론에서 개별 사용자에서 대규모 배포로 확장하려면 성능과 비용 효율성 간의 최적의 균형을 찾아야 합니다. 시스템은 사용자에게 빠른 응답을 보장할 뿐만 아니라 하드웨어 기능(예: FLOPS, HBM 대역폭)을 향상하고 소프트웨어(예: 아키텍처, 알고리즘)를 최적화하여 전체 처리량(초당 토큰)을 극대화해야 하며, 궁극적으로 대규모 추론의 경제적 가치를 잠금 해제해야 합니다.

스케일링 법칙의 둔화에 대한 우려에 대해, 젠슨 황은 대조적인 관점을 표명하며 "새로운 확장 방법과 기술이 전례 없는 속도로 AI 개선을 가속화하고 있다"고 주장했습니다.
엄청난 압박감에 직면한 황은 생방송 중에 눈에 띄게 긴장한 모습을 보였고, 휴식 시간에 자주 물을 마셨고, 프레젠테이션이 끝날 무렵에는 약간 쉰 목소리로 들렸습니다.
AI 시장이 "트레이닝"에서 "추론"으로 전환됨에 따라 AMD, Intel, Google, Amazon과 같은 경쟁사는 NVIDIA에 대한 의존도를 줄이기 위해 특수 추론 칩을 출시하고 있습니다. 한편, Cerebras, Groq, Tenstorrent와 같은 신생 기업은 AI 가속기 개발을 가속화하고 있으며 DeepSeek과 같은 회사는 모델을 최적화하여 값비싼 GPU에 대한 의존도를 최소화하는 것을 목표로 합니다. 이러한 역학은 Huang이 직면한 과제에 기여합니다. NVIDIA가 트레이닝 시장의 90% 이상을 지배하는 동안 Huang은 치열해지는 경쟁 속에서 추론 시장을 포기하지 않기로 결심했습니다. 이 행사의 입장 배너에는 "AI의 다음 단계는 여기서 시작됩니다"라는 대담한 문구가 적혀 있습니다.

“FiberMall”에서 현장에서 요약한 Jensen Huang의 기조연설의 주요 내용은 다음과 같습니다.
세상은 스케일링 법칙을 오해하고 있다
AI는 지난 10년 동안 NVIDIA에 변혁의 기회를 제공했으며, Huang은 그 잠재력에 대해 여전히 깊은 확신을 가지고 있습니다. 이 GTC에서 그는 1월 CES 기조연설에서 두 장의 슬라이드를 다시 살펴보았습니다.
첫 번째 슬라이드에서는 AI 개발 단계를 인지 AI, 생성 AI, 에이전트 AI, 물리적 AI로 나누어 설명했습니다.

두 번째 슬라이드는 확장 법칙의 세 가지 단계, 즉 사전 훈련 확장, 사후 훈련 확장, 테스트 시 확장(장기적 사고)을 보여줍니다.

황은 주류 견해와 크게 대조되는 관점을 제시하며, 스케일링 법칙의 둔화에 대한 우려는 엉뚱하다고 주장했습니다. 그의 견해에 따르면, 새로운 확장 방법과 기술은 전례 없는 속도로 AI 발전을 촉진하고 있습니다.
스케일링 법칙을 굳게 믿는 황의 확신은 글로벌 AI 발전이 NVIDIA의 GPU 사업과 긴밀히 연관되어 있다는 사실에서 비롯됩니다. 그는 "단계적으로 추론"할 수 있는 AI의 진화에 대해 설명하면서 컴퓨팅 수요를 주도하는 추론 및 강화 학습의 역할을 강조했습니다. AI가 "변곡점"에 도달함에 따라 클라우드 서비스 제공업체는 점점 더 GPU를 요구하고 있으며, 황은 데이터 센터 건설 가치가 1조 달러에 달할 것으로 추정합니다.
황은 NVIDIA CUDA-X GPU 가속 라이브러리와 마이크로서비스가 이제 거의 모든 산업에 서비스를 제공한다고 자세히 설명했습니다. 그의 비전에 따르면 모든 회사는 미래에 두 개의 공장을 운영할 것입니다. 하나는 상품을 생산하는 공장이고 다른 하나는 AI를 생성하는 공장입니다.

AI는 로봇공학, 자율 주행차, 공장, 무선 네트워크를 포함한 전 세계 다양한 분야로 확장되고 있습니다. 젠슨 황은 AI의 가장 초기 응용 분야 중 하나가 자율 주행차라고 강조하며, "우리가 개발한 기술은 데이터 센터와 자동차 산업 모두에서 거의 모든 자율 주행차 회사에서 사용되고 있습니다."라고 말했습니다.
젠슨은 자율 주행의 중요한 이정표를 발표했습니다. 미국 최대 자동차 제조업체인 제너럴 모터스는 차세대 차량, 공장 및 로봇을 개발하기 위해 NVIDIA AI, 시뮬레이션 및 가속 컴퓨팅을 도입하고 있습니다. 그는 또한 NVIDIA의 자동차 하드웨어 및 소프트웨어 안전 솔루션과 자율 주행차 안전 분야의 최첨단 AI 연구를 결합한 통합 안전 시스템인 NVIDIA Halos를 소개했습니다.

데이터 센터와 추론으로 넘어가면서, 황은 NVIDIA Blackwell이 본격적인 생산에 돌입했으며, 수많은 업계 파트너의 시스템을 선보였다고 공유했습니다. Blackwell의 잠재력에 만족한 그는 그것이 어떻게 극한의 확장성을 지원하는지에 대해 자세히 설명하면서, "우리는 중요한 과제를 해결하는 것을 목표로 하며, 이것이 바로 우리가 추론이라고 부르는 것입니다."라고 설명했습니다.
황은 추론이 토큰을 생성하는 것을 포함하며, 이는 기업에 필수적인 프로세스라고 강조했습니다. 토큰을 생성하는 이러한 AI 팩토리는 뛰어난 효율성과 성능으로 구축되어야 합니다. 점점 더 복잡해지는 문제를 해결할 수 있는 최신 추론 모델이 등장하면서 토큰에 대한 수요는 계속 증가할 것입니다.
대규모 추론을 더욱 가속화하기 위해 Huang은 AI 공장에서 추론 모델을 최적화하고 확장하도록 설계된 오픈소스 소프트웨어 플랫폼인 NVIDIA Dynamo를 발표했습니다. 그는 이를 "본질적으로 AI 공장의 운영 체제"라고 설명하면서 그 혁신적 잠재력을 강조했습니다.

“더 많이 사고, 더 많이 저축하고, 더 많이 벌어라”
엔비디아는 또한 두 가지 새로운 GPU를 공개했습니다. 작년의 Blackwell의 업그레이드 버전인 Blackwell Ultra GB300과 차세대 Vera Rubin 및 Rubin Ultra 칩 아키텍처입니다.
Blackwell Ultra GB300은 올해 하반기에 출시될 예정입니다.
베라 루빈은 내년 하반기에 개봉될 예정이다.
루빈 울트라는 2027년 후반에 출시될 예정이다.
또한 황은 출시 예정인 칩에 대한 로드맵을 공개했습니다. 루빈 이후 세대의 아키텍처는 파인만이라는 이름을 얻었으며, 2028년에 출시될 예정입니다. 이 이름은 유명한 이론 물리학자 리처드 파인만을 기리는 의미일 것입니다.
NVIDIA의 전통을 이어받아 각 GPU 아키텍처는 저명한 과학자의 이름을 따서 명명되었습니다. Blackwell은 통계학자 David Harold Blackwell의 이름을 따서 명명되었고, Rubin은 암흑 물질의 존재를 확인한 선구적인 천체물리학자인 Vera Rubin의 이름을 따서 명명되었습니다.

지난 13년 동안 NVIDIA는 XNUMX세대의 GPU 아키텍처를 출시했으며, XNUMX년에 평균 XNUMX세대 이상의 새로운 아키텍처가 출시되었습니다. 여기에는 Tesla, Fermi, Kepler, Maxwell, Pascal, Turing, Ampere, Hopper, 그리고 가장 최근에는 Rubin과 같은 상징적인 이름이 포함됩니다. Huang의 스케일링 법칙에 대한 헌신은 이러한 혁신의 원동력이었습니다.
성능과 관련하여 Blackwell Ultra는 Blackwell에 비해 상당한 업그레이드를 제공하며, 여기에는 HBM3e 메모리 용량이 192GB에서 288GB로 증가한 것이 포함됩니다. NVIDIA는 또한 Blackwell Ultra를 100년에 출시된 H2022 칩과 비교하여 FP1.5 추론 성능이 4배 더 높다고 언급했습니다. 이는 상당한 이점으로 이어집니다. DeepSeek-R72 1B 모델을 실행하는 NVL671 클러스터는 H10의 경우 1.5분인 반면 100초 안에 대화형 응답을 제공할 수 있습니다. Blackwell Ultra는 초당 1,000개의 토큰을 처리하며, 이는 H10의 100배입니다.

NVIDIA는 또한 다음을 특징으로 하는 GB300 NVL72 단일 랙 시스템을 제공할 예정입니다.
FP1.1의 4 엑사플롭,
20TB의 HBM 메모리,
40TB의 "빠른 메모리"
130TB/s의 NVLink 대역폭 및
네트워크 속도는 14.4TB/s입니다.
블랙웰 울트라의 압도적인 성과를 인정한 황은 고객이 H100 구매를 건너뛸지도 모른다는 우려에 대해 농담을 했습니다. 그는 자신을 "최고 수익 파괴자"라고 유머러스하게 언급하며, 제한된 경우에 호퍼 칩이 "괜찮다"고 인정했지만, 그런 시나리오는 드뭅니다. 그는 고전적인 대사로 마무리하며 "더 많이 사고, 더 많이 저축하세요. 그보다 더 좋습니다. 지금은 더 많이 살수록 더 많이 벌 수 있습니다."라고 선언했습니다.
루빈 아키텍처는 엔비디아의 획기적인 단계를 나타냅니다. 젠슨 황은 "기본적으로 랙을 제외한 모든 것이 새롭습니다."라고 강조했습니다.
향상된 FP4 성능: Rubin GPU는 50페타플롭을 달성하여 Blackwell의 20페타플롭을 능가합니다. Rubin Ultra는 두 개의 상호 연결된 Rubin GPU가 있는 단일 칩으로 구성되어 Rubin의 두 배인 100페타플롭의 FP4 성능을 제공하고 메모리는 거의 1배인 XNUMXTB입니다.
NVL576 Rubin Ultra Rack: FP15 추론에서 4엑사플롭스, FP5 학습에서 8엑사플롭스를 제공하며, Blackwell Ultra 랙보다 14배 더 높은 성능을 자랑합니다.

황은 또한 광자 기술을 통합하여 시스템을 확장하고 NVIDIA의 Spectrum-X 및 Quantum-X 실리콘 광자 네트워크 스위치에 통합하는 방법을 설명했습니다. 이러한 혁신은 전자 및 광 통신을 결합하여 AI 공장이 에너지 소비와 비용을 줄이는 동시에 여러 사이트에서 수백만 개의 GPU를 상호 연결할 수 있도록 합니다.

이 스위치는 뛰어난 효율성을 자랑하며, 기존 방식에 비해 전력 효율성은 3.5배, 신호 무결성은 63배, 네트워크 복원력은 10배, 구축 속도는 더 빠릅니다.
AI 시대를 위한 컴퓨터
클라우드 칩과 데이터 센터를 넘어 확장된 NVIDIA는 NVIDIA Grace Blackwell 플랫폼으로 구동되는 데스크톱 AI 슈퍼컴퓨터를 출시했습니다. AI 개발자, 연구자, 데이터 과학자 및 학생을 위해 설계된 이 장치는 데스크톱 수준에서 대형 모델의 프로토타입 제작, 미세 조정 및 추론을 가능하게 합니다.

주요 제품은 다음과 같습니다.
DGX 슈퍼컴퓨터: NVIDIA Grace Blackwell 플랫폼을 탑재하여 탁월한 로컬 또는 클라우드 배포 기능을 제공합니다.
DGX Station: Blackwell Ultra가 장착된 고성능 워크스테이션입니다.

Llama Nemotron Inference Series: 개선된 다단계 추론, 코딩 및 의사 결정을 제공하는 오픈소스 AI 모델 패밀리. NVIDIA의 개선 사항은 정확도를 20%, 추론 속도를 5배, 운영 비용 효율성을 높입니다. Microsoft, SAP, Accenture와 같은 선도적인 기업들이 NVIDIA와 협력하여 새로운 추론 모델을 개발하고 있습니다.
범용 로봇 시대
젠슨 황은 로봇을 다음 10조 달러 산업으로 선언하면서 세기말까지 50만 명에 달할 것으로 예상되는 세계적 노동력 부족 문제를 해결했습니다. NVIDIA는 세계 최초의 개방형, 완전 사용자 정의 가능한 휴머노이드 추론 및 기술 기반 모델인 Isaac GR00T N1과 새로운 데이터 생성 및 로봇 학습 프레임워크를 공개했습니다. 이는 AI의 다음 전선을 위한 길을 열어줍니다.
또한 NVIDIA는 물리적 AI 개발을 위한 Cosmos Foundation Model을 출시했습니다. 이 개방적이고 사용자 정의 가능한 모델은 개발자에게 세계 생성에 대한 전례 없는 제어권을 부여하여 Omniverse와의 통합을 통해 광대하고 체계적으로 무한한 데이터 세트를 생성합니다.
황은 또한 Google DeepMind와 Disney Research와 공동 개발한 로봇 시뮬레이션을 위한 오픈소스 물리 엔진인 Newton을 소개했습니다. 기억에 남는 순간, 작년 GTC에 등장했던 "Blue"라는 이름의 미니어처 로봇이 다시 무대에 등장하여 청중을 즐겁게 했습니다.

NVIDIA의 지속적인 여정은 10년 전 AlexNet을 통한 AI 혁신에서 오늘날 로봇공학과 물리적 AI에 대한 집중에 이르기까지 GPU의 응용 분야를 찾는 것이었습니다. NVIDIA의 다음 10년 동안의 열망이 결실을 맺을까요? 시간이 말해줄 것입니다.
관련 상품:
-
NVIDIA MMA4Z00-NS400 호환 400G OSFP SR4 플랫 탑 PAM4 850nm 30m on OM3/50m on OM4 MTP/MPO-12 다중 모드 FEC 광 트랜시버 모듈 $650.00
-
NVIDIA MMS4X00-NS400 호환 400G OSFP DR4 플랫 탑 PAM4 1310nm MTP/MPO-12 500m SMF FEC 광 트랜시버 모듈 $800.00
-
NVIDIA MMA1Z00-NS400 호환 400G QSFP112 SR4 PAM4 850nm 100m MTP/MPO-12 OM3 FEC 광 트랜시버 모듈 $650.00
-
NVIDIA MMS1Z00-NS400 호환 400G NDR QSFP112 DR4 PAM4 1310nm 500m MPO-12(FEC 광 트랜시버 모듈 포함) $800.00
-
NVIDIA MMA4Z00-NS 호환 800Gb/s 트윈 포트 OSFP 2x400G SR8 PAM4 850nm 100m DOM 듀얼 MPO-12 MMF 광 트랜시버 모듈 $750.00
-
NVIDIA MMA4Z00-NS-FLT 호환 800Gb/s 트윈 포트 OSFP 2x400G SR8 PAM4 850nm 100m DOM 듀얼 MPO-12 MMF 광 트랜시버 모듈 $850.00
-
NVIDIA MMS4X00-NM 호환 800Gb/s 트윈 포트 OSFP 2x400G PAM4 1310nm 500m DOM 듀얼 MTP/MPO-12 SMF 광 트랜시버 모듈 $1100.00
-
NVIDIA MMS4X00-NM-FLT 호환 800G 트윈 포트 OSFP 2x400G 플랫 탑 PAM4 1310nm 500m DOM 듀얼 MTP/MPO-12 SMF 광 트랜시버 모듈 $1200.00
-
NVIDIA MMS4X50-NM 호환 OSFP 2x400G FR4 PAM4 1310nm 2km DOM 이중 이중 LC SMF 광 트랜시버 모듈 $1350.00
-
NVIDIA MCP7Y00-N001 호환 1m(3피트) 800Gb 트윈 포트 OSFP - 2x400G OSFP InfiniBand NDR 브레이크아웃 직접 연결 구리 케이블 $175.00
-
NVIDIA MCA7J60-N004 호환 4m(13피트) 800G 트윈 포트 OSFP - 2x400G OSFP InfiniBand NDR 브레이크아웃 활성 구리 케이블 $800.00
-
NVIDIA MCP7Y10-N001 호환 가능한 1m(3피트) 800G InfiniBand NDR 트윈 포트 OSFP - 2x400G QSFP112 브레이크아웃 DAC $165.00
-
NVIDIA MCP7Y50-N001 호환 1m(3ft) 800G InfiniBand NDR 트윈 포트 OSFP - 4x200G OSFP 브레이크아웃 DAC $295.00
-
NVIDIA MCA7J70-N004 호환 4m(13피트) 800G InfiniBand NDR 트윈 포트 OSFP - 4x200G OSFP 브레이크아웃 ACC $1100.00
-
NVIDIA MCA4J80-N003 호환 800G 트윈 포트 2x400G OSFP - 2x400G OSFP InfiniBand NDR 활성 구리 케이블 $600.00
-
NVIDIA MCP4Y10-N002-FLT 호환 2m(7피트) 800G 트윈 포트 2x400G OSFP - 2x400G OSFP InfiniBand NDR 패시브 DAC, 한쪽 끝은 플랫 탑, 다른 쪽 끝은 플랫 탑 $300.00
-
NVIDIA MCP4Y10-N00A 호환 0.5m(1.6피트) 800G 트윈 포트 2x400G OSFP - 2x400G OSFP InfiniBand NDR 패시브 직접 연결 구리 케이블 $105.00
-
NVIDIA MCA4J80-N003-FLT 호환 3m(10피트) 800G 트윈 포트 2x400G OSFP - 2x400G OSFP InfiniBand NDR 활성 구리 케이블, 한쪽 끝은 플랫 탑, 다른 쪽 끝은 플랫 탑 $600.00