최근 CES 컨퍼런스에서 새로운 재킷을 입은 젠슨 황은 RTX 5090의 공식 출시를 발표했습니다.
50 시리즈 GPU의 가격은 다음과 같습니다.
RTX 5090: $1999 / RTX 5090 D: 16,499 RMB
RTX 5080: $999 / 8,299 RMB
RTX 5070 Ti: $749
RTX 5070: $549
RTX 5090과 RTX 5080은 30월 5070일부터 출시되고, RTX 5070 Ti와 RTX 50은 XNUMX월에 출시됩니다. RTX XNUMX 시리즈 노트북은 XNUMX월에 출시됩니다.
황은 또한 72개의 블랙웰 GPU, 72엑사플롭스의 컴퓨팅 파워, 1.4조 1.3억 개의 트랜지스터를 탑재한 새로운 데이터 센터 슈퍼칩인 그레이스 블랙웰 NVLinkXNUMX를 선보였으며, 이를 통해 세계에서 가장 빠른 슈퍼컴퓨터를 능가하는 것을 목표로 합니다.
또한, 세계 최초의 진정한 데스크톱 슈퍼컴퓨터인 Project Digits가 공개되었는데, 가격은 단 3000달러입니다. 이를 통해 커피 머그잔만한 공간만 차지하면서도 책상에서 200억 개의 매개변수가 있는 대형 모델을 실행할 수 있지만 데이터 센터 수준의 컴퓨팅 파워를 제공합니다.
새로운 GB10 Grace Blackwell 슈퍼칩을 탑재한 Project Digits는 FP1 정밀도에서 최대 4 PFLOPS의 성능을 제공할 수 있습니다.
황은 미래에 모든 데이터 과학자, 연구자, 학생이 책상 위에 Project Digits 개인 AI 슈퍼컴퓨터를 갖게 될 것이라고 예측합니다. AI 시대는 모든 사람의 것이 될 것입니다.
RTX 5090의 데뷔 때 DLSS 4도 소개되었습니다. 몇 달간의 유출과 소문 끝에 새로운 세대의 RTX Blackwell GPU가 다음과 같은 성능 매개변수로 공식적으로 공개되었습니다.
- 92 억 개의 트랜지스터
- 4000 TOPS의 AI 컴퓨팅 파워
- 380 TFLOPS의 레이 트레이싱 성능
- 125 TFLOPS의 셰이더 성능
- 32GB GDDR7 메모리
- 1792GB/s 메모리 대역폭
- 최대 21,760개의 CUDA 코어
RTX 5090 D의 AI 컴퓨팅 성능은 2375 TOPS에 불과하지만, 여전히 4090 D의 두 배에 달한다는 점도 주목할 만합니다.
이처럼 고급스러운 구성과 DLSS 4 및 Blackwell 아키텍처 지원으로 RTX 5090의 성능은 RTX 4090의 두 배에 달합니다. 그러나 이는 총 그래픽 카드 전력이 575와트이고 권장 전원 공급 장치가 1000와트로 높은 전력 소비를 의미합니다.
데모에서는 DLSS 2077를 활성화한 RTX 5090에서 "Cyberpunk 4"을 실행하면 초당 238프레임에 도달하는 반면, DLSS 106를 활성화한 RTX 4090에서는 초당 3.5프레임에 그쳤습니다.
RTX 5080은 RTX 4080보다 두 배 빠르며, 16GB GDDR7 메모리, 960GB/s의 메모리 대역폭, 10,752개의 CUDA 코어를 탑재했습니다. RTX 5070 Ti는 16GB GDDR7 메모리, 896GB/s 대역폭, 8,960개의 CUDA 코어를 탑재했습니다. RTX 5070은 12GB GDDR7 메모리, 672GB/s 용량, 6,144개의 CUDA 코어를 탑재했습니다. Jensen Huang은 가격이 5070달러인 RTX 549이 DLSS 4090 덕분에 RTX 4 수준의 성능을 제공할 것이라고 주장하기도 했습니다.
또한 황은 실시간 렌더링 데모를 통해 RTX Blackwell GPU를 선보였습니다. 그는 "새로운 세대의 DLSS는 프레임을 생성할 뿐만 아니라 미래를 예측합니다. 우리는 GeForce로 AI를 추진했고 이제 AI가 GeForce를 혁신하고 있습니다."라고 말했습니다. NVIDIA의 새로운 RTX 신경 셰이더는 게임 텍스처를 압축하는 데 사용할 수 있으며 RTX 신경 얼굴은 생성 AI를 활용하여 얼굴 품질을 향상시킵니다. 차세대 DLSS에는 다중 프레임 생성 기술이 포함되어 기존 프레임당 최대 8개의 추가 프레임을 생성하여 프레임 속도를 최대 4배까지 높입니다. DLSS XNUMX는 또한 실시간 애플리케이션에서 Transformers를 사용하여 이미지 품질을 향상시키고 고스팅을 줄이며 동적 장면에 더 많은 디테일을 추가합니다.
NVIDIA가 RTX 50 시리즈 Founders Edition에 듀얼 축류 팬, 3D 증기 챔버, GDDR7 메모리를 특징으로 하는 새로운 디자인을 도입한 것은 주목할 만합니다. 모든 RTX 50 시리즈 GPU는 PCIe Gen 5를 지원하고 DisplayPort 2.1b 인터페이스가 장착되어 8Hz에서 165K 해상도를 구동할 수 있습니다. 놀랍게도 RTX 5090 Founders Edition은 듀얼 슬롯 그래픽 카드로 소형 폼 팩터 케이스에 적합합니다. 이는 RTX 4090에 비해 상당한 변화입니다.
엔비디아의 수석 과학자 짐 팬은 젠슨 황의 그래픽 기술 프레젠테이션의 "본질"을 강조했습니다. 황은 새로운 GPU가 신경망을 사용하여 게임에서 90% 이상의 픽셀을 생성한다고 설명했습니다. 기존의 레이 트레이싱 알고리즘은 "대략적인 스케치"와 유사한 콘텐츠의 약 10%만 렌더링하고 나머지 세부 사항은 생성 모델이 실시간으로 채웁니다. 신사 숙녀 여러분, AI는 새로운 세대의 그래픽 기술입니다.
50 시리즈 GPU가 출시된 후, Huang은 "스케일링 법칙은 계속된다"고 언급했습니다.
- 첫 번째 스케일링 법칙은 사전 학습입니다.
- 두 번째 스케일링 법칙은 훈련 후에 적용됩니다.
- 세 번째 스케일링 법칙은 추론 시간 계산입니다.
이러한 진화하는 스케일링 법칙은 AI에 대한 엄청난 컴퓨팅 수요를 촉진합니다. 놀랍게도 Microsoft, Meta, xAI를 포함한 약 15개의 슈퍼컴퓨팅 센터가 이미 Blackwell GPU를 갖추고 있습니다.
다음으로 그는 테스트 중 확장의 완벽한 예로 AI 에이전트를 언급했습니다. 또한 그는 다양한 AI 에이전트 작업에 높은 정확도를 제공하는 Llama Nemotron이라는 일련의 오픈 라이선스 기반 모델을 출시한다고 발표했습니다. Jensen Huang은 "AI 에이전트는 다음 로봇 산업이 될 수 있으며, 잠재적으로 수조 달러 규모의 기회를 나타낼 수 있습니다."라고 말했습니다.
또한 NVIDIA의 NIM Blueprint가 곧 PC에서 출시될 예정입니다. 이러한 청사진을 통해 개발자는 PDF 문서를 기반으로 팟캐스트를 제작하고 3D 장면에 따라 놀라운 이미지를 생성할 수 있습니다.
4.05조 LLM 매개변수를 실행할 수 있는 데스크톱 수준 AI 슈퍼컴퓨터
CES 컨퍼런스를 마무리하기 전, 젠슨 황은 혁신적인 제품인 Project Digits를 공개했습니다. 진정한 "데스크톱 슈퍼컴퓨터!"입니다. 이 제품은 AI 개발자, 데이터 과학자, 학생 및 AI 작업에 종사하는 다른 전문가를 위해 설계되었습니다.
이 컴팩트한 컴퓨터는 200억 개의 매개변수 모델을 실행할 수 있는 세계에서 가장 작은 AI 슈퍼컴퓨터로, 가격은 3,000달러(약 ¥21,986)입니다. 황이 보여준 것처럼, 이 컴팩트한 데스크톱 시스템은 평균적인 커피잔 너비와 높이의 약 절반에 해당하는 최소한의 책상 공간을 차지하면서도 엄청난 컴퓨팅 파워를 제공합니다. 책상 위에 데이터 센터 수준의 컴퓨팅 파워를 제공하는 소형 장치가 있다고 상상해보세요. 이것이 Project Digits가 가져온 혁신적인 돌파구입니다!
Project Digits는 FP10 정밀도로 최대 1 PFLOPS(페타플롭스)의 AI 성능을 제공할 수 있는 새로운 GB4 Grace Blackwell 슈퍼칩을 탑재했습니다.
이 강력한 칩에는 20코어 ARM 기반 Grace CPU도 포함되어 있습니다. CPU와 GPU는 고속 통신을 위해 NVIDIA NVLink C2C 기술을 사용하여 상호 연결됩니다. 각 Project Digits에는 128GB의 저전력, 고도로 일관된 통합 메모리와 최대 4TB의 NVME 스토리지가 장착되어 있습니다. 이 설정을 통해 개발자는 최대 200억 개의 매개변수를 데스크톱에서 직접 실행할 수 있습니다. 또한 ConnectX 네트워크 칩을 사용하면 두 대의 Project Digits 슈퍼컴퓨터를 상호 연결하여 최대 4.05조 개의 매개변수를 가진 모델을 실행할 수 있습니다.
또한 Project Digits에는 NVIDIA DGX 기본 운영 체제(Ubuntu Linux 기반)와 NVIDIA AI 소프트웨어 스택이 사전 설치되어 있어 개발자에게 플러그 앤 플레이 AI 개발 환경을 제공합니다. 개발자는 바로 AI 프로젝트를 시작할 수 있습니다. 수백만 명의 개발자에게, 특히 대규모 AI 모델을 실행하기 위해 클라우드 컴퓨팅/데이터 센터 리소스가 필요한 개발자에게는 획기적인 혁신 제품이 될 것입니다. 이 데스크톱 AI 슈퍼컴퓨터는 AI 모델 실험 및 프로토타입 제작, 모델 미세 조정 및 추론(모델 테스트 또는 평가용), 로컬 AI 추론 서비스(예: 챗봇 또는 코드 인텔리전스 어시스턴트)를 포함한 광범위한 응용 프로그램을 제공합니다. 또한 데이터 과학자는 이 시스템을 사용하여 NVIDIA RAPIDS를 실행하여 데스크톱에서 직접 대규모 데이터 과학 워크플로를 효율적으로 처리할 수 있습니다.
NVIDIA의 AI 기술 스택(프레임워크, 도구, API)에 대한 포괄적인 지원을 통해 Project Digits는 특히 로봇공학 및 VLM(비전 언어 모델) 분야에서 엣지 컴퓨팅 애플리케이션을 위한 이상적인 개발 플랫폼이 되었습니다. Project Digits의 출현은 개인 AI 컴퓨팅의 새로운 시대를 알립니다. 전 세계 개발자가 데스크톱에서 대규모 AI 모델을 실행하여 기존 클라우드 컴퓨팅 리소스를 보완하고 AI 개발 효율성을 크게 향상시킬 수 있습니다.
물리적 AI의 새로운 시대: 오픈 소스 세계 모델
지능형 AI가 도입된 후, 젠슨 황은 이제 대화를 "물리적 AI"로 이끌었습니다. 그의 견해에 따르면 "AI의 다음 전선은 물리적 AI입니다." 대규모 모델의 원칙은 프롬프트에 따라 한 번에 토큰 하나씩 출력을 생성하는 것입니다. 이 맥락이 실제 환경이 되고 프롬프트가 요청이 되면 모델은 "콘텐츠 토큰" 생성에서 "액션 토큰" 생성으로 전환해야 합니다. 지금 필요한 것은 GPT 기반 언어 모델이 아닌 효과적인 "세계 모델"을 만드는 것입니다.
이 '세계 모델'은 세계의 언어를 이해하고, 중력과 마찰과 같은 물리적 역학을 이해하고, 기하학적, 공간적 관계를 파악하고, 인과 관계를 이해하고, 물리적 영구성을 인식해야 합니다.
CES에서 Jensen Huang은 물리적 세계를 이해하는 것을 목표로 하는 Cosmos라는 혁신적인 세계 기반 모델 개발 플랫폼을 발표했습니다. 20만 시간 분량의 데이터 세트에서 학습된 Cosmos는 텍스트, 이미지, 비디오를 입력으로 사용하여 가상 세계 상태와 비디오를 생성할 수 있습니다. 이 플랫폼에는 확산 모델, 자기 회귀 모델, 비디오 토크나이저와 같은 여러 기능 모듈이 포함되어 있어 개발자는 특정 요구 사항에 따라 선택할 수 있습니다. 특히 Jensen Huang은 Nano, Super, Ultra를 포함한 Cosmos 전체를 오픈 소스로 제공하고 다운로드할 수 있다고 발표했습니다.
또한, Cosmos는 Omniverse와 통합되어 물리적으로 현실적인 다중 생성기를 제공할 수 있습니다. 즉, 물리적 시뮬레이션 세계의 모든 것을 Cosmos를 통해 한 번에 생성할 수 있습니다.
젠슨 황은 또한 세 가지 유형의 컴퓨터를 언급했습니다. AI를 훈련하기 위한 DGX, AI를 배포하기 위한 AGX, 그리고 Omniverse와 Cosmos의 조합입니다. 처음 두 가지를 연결할 때 디지털 트윈이 필요합니다. 황은 "미래에는 모든 공장에 디지털 트윈이 있을 것이고, Omniverse와 Cosmos를 결합하여 수많은 미래 시나리오를 생성할 수 있습니다."라고 생각합니다.
자율 주행차와 로봇
로봇과 같은 자율 주행차를 만드는 데는 이 세 대의 컴퓨터가 필요합니다. 현재 연간 100억 대의 자동차가 생산되고 전 세계적으로 수십억 대의 자동차가 생산되고 있으며, 점차 고도로 자동화되고 완전 자율 주행 시스템이 될 것입니다. 젠슨 황은 이것이 최초의 20조 달러 로봇 산업이 될 것이라고 예측합니다. 그는 또한 이전 모델인 오린에 비해 처리 성능이 XNUMX배 향상된 차세대 자동차 프로세서인 토르를 소개했으며, 범용 로봇 프로세서 역할을 합니다.
그렇다면, 자율 주행의 맥락에서 Omniverse와 Cosmos는 무엇을 할 수 있을까요? 그들은 무한한 주행 시나리오를 생성하여 짧은 꼬리와 수집할 수 없는 데이터가 있는 시나리오에서 자율 주행 개발을 가속화할 수 있습니다.
이어서 젠슨 황은 모든 로봇을 무대로 불러 모아 "일반 로봇을 위한 ChatGPT 모멘트"의 도래를 알렸습니다. 그는 "현재 로봇에는 지능형 AI, 자율주행차, 기계의 세 가지 유형이 있습니다. 이 세 가지 문제를 해결할 기술이 있다면 로봇 시대가 다가왔습니다."라고 말했습니다. 기자 회견을 마무리하면서 황은 현재 생산 중인 새로운 Blackwell 시스템이 세 가지 있다고 요약했습니다. Physical AI의 기초 모델인 Grace Blackwell NVLink72 슈퍼컴퓨터와 지능형 AI 분야에서 개발된 세 가지 유형의 로봇입니다.
관련 상품:
- NVIDIA MMA4Z00-NS400 호환 400G OSFP SR4 플랫 탑 PAM4 850nm 30m on OM3/50m on OM4 MTP/MPO-12 다중 모드 FEC 광 트랜시버 모듈 $650.00
- NVIDIA MMA4Z00-NS-FLT 호환 800Gb/s 트윈 포트 OSFP 2x400G SR8 PAM4 850nm 100m DOM 듀얼 MPO-12 MMF 광 트랜시버 모듈 $850.00
- NVIDIA MMA4Z00-NS 호환 800Gb/s 트윈 포트 OSFP 2x400G SR8 PAM4 850nm 100m DOM 듀얼 MPO-12 MMF 광 트랜시버 모듈 $750.00
- NVIDIA MMS4X00-NM 호환 800Gb/s 트윈 포트 OSFP 2x400G PAM4 1310nm 500m DOM 듀얼 MTP/MPO-12 SMF 광 트랜시버 모듈 $1100.00
- NVIDIA MMS4X00-NM-FLT 호환 800G 트윈 포트 OSFP 2x400G 플랫 탑 PAM4 1310nm 500m DOM 듀얼 MTP/MPO-12 SMF 광 트랜시버 모듈 $1200.00
- NVIDIA MMS4X00-NS400 호환 400G OSFP DR4 플랫 탑 PAM4 1310nm MTP/MPO-12 500m SMF FEC 광 트랜시버 모듈 $800.00
- Mellanox MMA1T00-HS 호환 200G Infiniband HDR QSFP56 SR4 850nm 100m MPO-12 APC OM3/OM4 FEC PAM4 광 트랜시버 모듈 $200.00
- NVIDIA MFP7E10-N010 호환 10m(33ft) 8 섬유 낮은 삽입 손실 암-암 MPO 트렁크 케이블 극성 B APC-APC LSZH 다중 모드 OM3 50/125 $47.00
- NVIDIA MCP7Y00-N003-FLT 호환 3m(10피트) 800G 트윈 포트 OSFP - 2x400G 플랫 탑 OSFP InfiniBand NDR 브레이크아웃 DAC $275.00
- NVIDIA MCP7Y70-H002 호환 2m(7피트) 400G 트윈 포트 2x200G OSFP - 4x100G QSFP56 패시브 브레이크아웃 직접 연결 구리 케이블 $155.00
- NVIDIA MCA4J80-N003-FTF 호환 3m(10피트) 800G 트윈 포트 2x400G OSFP - 2x400G OSFP InfiniBand NDR 활성 구리 케이블, 한쪽 끝은 평면 상단, 다른 쪽 끝은 핀형 상단 $600.00
- NVIDIA MCP7Y10-N002 호환 가능한 2m(7피트) 800G InfiniBand NDR 트윈 포트 OSFP - 2x400G QSFP112 브레이크아웃 DAC $200.00