NVIDIA GB300 NVL72(블랙웰 울트라)가 중요한 이유 🤔
NVIDIA는 약 120kW의 전력을 소비하고 1.1 엑사플롭스의 FP4 컴퓨팅을 제공하는 수냉식 랙 스케일 유닛에 72개의 블랙웰 울트라 GPU와 36개의 Grace CPU를 결합한 GB300 NVL72로 기존 GB200 NVL72보다 1.5배 더 뛰어난 AI 성능을 제공합니다(NVIDIA, 2025). 이 단일 캐비닛은 최신 데이터센터 내부의 전력, 냉각 및 케이블링에 대한 모든 가정을 변화시킵니다. 배포 엔지니어가 첫 번째 프로덕션 GB300 NVL72 제공을 위해 현장을 준비하면서 배우고 있는 내용은 다음과 같습니다.
1. 랙 분해하기
캐비닛의 무게는 약 1.36t(3,000파운드)이며 기존 42U 랙과 동일한 설치 공간을 차지합니다(The Register, 2024). GB300 NVL72는 블랙웰 울트라를 대표하는 제품으로, 8높이가 아닌 12높이의 HBM3e 스택을 통해 GPU당 288GB(기존 B200의 192GB보다 50% 증가)의 향상된 B300 GPU를 탑재하고 있습니다. 각 슈퍼칩은 기존의 2-GPU 구성에 비해 이제 4개의 B300 GPU와 2개의 Grace CPU를 쌍으로 구성합니다. 각 그레이스-블랙웰 슈퍼칩은 2.6GHz의 72개의 블랙웰 울트라 GPU 코어와 기본 주파수 3.1GHz에서 실행되는 128코어 Arm 네오버스 V2 CPU를 짝을 이룹니다. 통합된 HBM3e 메모리는 GPU당 8TB/s, 288GB 용량을 제공합니다.
현장 인사이트: 랙의 무게 중심은 상단 트레이에 컴퓨팅 리소스가 밀집되어 있기 때문에 표준 서버보다 18% 더 높습니다. 이제 모범 사례에서는 최대 부하 작동 중에 관찰되는 미세 진동을 해결하기 위해 표준 케이지 너트가 아닌 M12 볼트로 마운팅 레일을 고정할 것을 권장합니다.
2. 야수에게 먹이를 주기: 전원 공급
An GB300 NVL72 rack ships with built‑in PSU shelves, delivering 94.5% efficiency at full load. Peak consumption hits 120.8 kW during mixed‑precision training workloads—power quality analyzers typically record 0.97 power factor with <3% total harmonic distortion.
전압 토폴로지 비교:
208V/60Hz: 335A 라인 전류, 4/0 AWG 구리(107mm²) 필요
415V/50-60Hz: 168A 라인 전류, 70mm² 구리만 필요
480V/60Hz: 145A 회선 전류, 최소 북미 지역 배포
업계 모범 사례는 160A IEC 60309 커넥터를 통해 랙당 듀얼 415V 3상 공급을 프로비저닝하는 것입니다. 이 선택은 유럽 시설 표준과의 호환성을 유지하면서 208V에 비해 I²R 손실을 75%까지 줄입니다. 현장 측정에 따르면 차단기 패널은 일반적으로 22°C 실내에서 85% 미만의 열 부하 경감을 유지합니다.
고조파 완화: GB300 NVL72 랙은 일반적인 AI 학습 부하에서 총 고조파 왜곡이 4.8%에 불과합니다. 일반적으로 8개의 랙을 초과하는 배포에는 IEEE 519 규정 준수를 유지하기 위해 전용 변압기에 12펄스 정류기가 필요합니다.
3. 냉각 플레이북: 열 공학의 현실
각 블랙웰 울트라 GPU 다이의 크기는 744mm²이며 냉각판 인터페이스를 통해 최대 1,000W의 전력을 소비합니다. Grace CPU는 128개 코어에 걸쳐 500W를 추가로 소비합니다. Dell의 IR7000 프로그램은 블랙웰급 장비의 기본 경로로 액체를 채택하고 있으며, 밀폐형 후면 도어 열 교환기를 통해 랙당 최대 480kW의 용량을 지원합니다(Dell Technologies, 2024).
권장 열 계층 구조:
≤80kW/랙: 18°C 공급수, 35L/min 유속의 후면 도어 열 교환기
80~132kW/랙: DTC(Direct-to-Chip) 루프 필수, 15°C 공급, 최소 30L/min
132kW/랙: 침수 냉각 또는 분할 랙 구성 필요
현장 배포의 DTC 사양:
냉각판 ΔT: 최대 부하 시 12-15°C(GPU 접합부 온도 83-87°C)
압력 강하: 전체 루프에서 2.1bar(프로필렌 글리콜 30% 사용 시)
유량 분포: 72개 GPU 냉각판 전체에서 ±3% 분산
Leak rate: <2 mL/year per QDC fitting (tested over 8,760 hours)
중요한 통찰력: 블랙웰 울트라의 전력 공급 네트워크는 그라데이션 동기화 중에 정상 상태 전력의 1.4배에 달하는 마이크로초 규모의 과도 현상을 나타냅니다. 업계 관행에서는 GPU 스로틀링 없이 이러한 열 급증을 처리하기 위해 정격 TDP의 110%에 맞게 냉각 크기를 조정할 것을 권장합니다.
4. 네트워크 패브릭: NVLink 5.0 및 향상된 연결성 관리
각 GB300 NVL72에는 NV링크 5.0이 탑재된 72개의 블랙웰 울트라 GPU가 포함되어 있어 GPU당 1.8TB/s의 대역폭과 시스템 전체에 걸쳐 130TB/s의 총 NV링크 대역폭을 제공합니다. 5세대 NVLink는 링크당 200Gbps 신호 속도로 작동하며, GPU당 18개의 링크가 있습니다. 9개의 NVSwitch 칩은 300나노초의 스위치 지연 시간으로 이 트래픽을 라우팅하고 576방향 GPU-GPU 통신 패턴을 지원합니다.
이제 랙 간 연결은 GPU당 800Gb/s(이전 세대의 400Gb/s의 두 배)의 네트워크 연결을 제공하는 ConnectX-8 SuperNIC를 통해 NVIDIA Quantum-X800 InfiniBand 및 Spectrum-X 이더넷 플랫폼을 모두 지원합니다.
케이블링 아키텍처:
Intra‑rack: 1,728 copper Twinax cables (75‑ohm impedance, <5m lengths)
인터랙: OM4 MMF를 통한 800G 트랜시버를 통한 90개의 QSFP112 포트
스토리지/관리: 각각 듀얼 800G 링크가 있는 18개의 블루필드-3 DPU
현장 측정:
광학 예산: 150m OM4 스팬에 걸쳐 1.5dB 삽입 손실 버짓
BER performance: <10⁻¹⁵ sustained over 72‑hour stress tests
커넥터 밀도: 랙당 1,908개의 종단(전원 포함)
모범 사례에는 사전 종단 처리된 144 광케이블 트렁크 어셈블리를 APC 광택 처리하여 배송하고 모든 커넥터를 TIA-568 표준에 따라 삽입 손실/반송 손실 테스트를 통해 검증하는 것이 포함됩니다. 숙련된 2인 승무원은 기술자가 현장에서 케이블을 구축할 때 7.5시간이 걸리던 것을 평균 2.8시간 만에 GB300 NVL72 광케이블 설치를 완료할 수 있습니다.
Signal integrity insight: NVLink‑5 operates with 25 GBd PAM‑4 signaling. Typical installations maintain a 2.1 dB insertion loss budget per Twinax connection and <120 fs RMS jitter through careful cable routing and ferrite suppression.
5. 현장 테스트를 거친 배포 체크리스트
구조적 요구 사항:
바닥 하중: ≥14kN/m²(2,030psf) 인증, 분산 중량이 대부분의 기존 시설을 초과합니다.
내진 브레이싱: 구역 4 설치 시 IBC 2021에 따라 추가 X-브레이싱이 필요합니다.
Vibration isolation: <0.5g acceleration at 10–1000 Hz to prevent NVLink errors
전력 인프라:
슈나이더 PM8000 분기 회로 모니터링 기능이 있는 듀얼 415V 피드, 각 160A
UPS 크기: 랙당 150kVA(125% 안전 마진), 온라인 이중 변환 토폴로지 사용
Grounding: Isolated equipment ground with <1Ω resistance to facility MGB
냉각 사양:
Coolant quality: <50 µS/cm conductivity, 30% propylene glycol, pH 8.5–9.5
필터 교체: 1,000시간마다 5µm 플리츠, 2,000시간마다 1µm 최종 교체
누출 감지: 0.1mL 감도의 전도성 유체 센서가 모든 QDC 피팅에 장착되어 있습니다.
예비 부품 인벤토리:
NVSwitch 트레이 1개(리드 타임: 6주)
CDU 펌프 카트리지 2개(MTBF: 8,760시간)
QSFP112 트랜시버 20개(현장 장애율: 연간 0.02%)
비상 열 인터페이스 재료(하니웰 PTM7950, 5g 튜브)
원격 인력 SLA: 4시간 현장 대응이 업계 표준이 되고 있으며, 선도적인 배포 파트너는 여러 국가에서 99% 이상의 가동 시간으로 이 목표를 유지하고 있습니다.
6. 프로덕션 부하에서의 성능 특성 분석
AI 추론 벤치마크(초기 배포 보고서에서 발췌):
DeepSeek R1-671B 모델: 초당 최대 1,000개의 토큰 지속 처리량
GPT-3 175B 파라미터 모델: 847 토큰/초/GPU 평균
안정적인 확산 2.1: 1024×1024 해상도에서 초당 14.2장 촬영
ResNet-50 이미지넷 트레이닝: 초당 2,340개 샘플의 지속적인 처리량
전력 효율성 확장:
단일 랙 사용률: GPU 사용률 95%에서 1.42GFLOPS/와트
10-랙 클러스터: 1.38GFLOPS/Watt(냉각 오버헤드로 인해 효율성 감소)
네트워크 유휴 전력: 랙당 3.2kW(NVSwitch + 트랜시버)
AI 추론 성능 향상: GB300 NVL72는 호퍼에 비해 사용자당 초당 토큰 수가 10배, 메가와트당 TPS가 5배 향상되어 AI 공장 출력 성능이 총 50배 향상될 수 있는 잠재력을 제공합니다.
열 순환 효과: 2,000시간의 생산 운영 후, 초기 배포에서는 열 인터페이스 재료 펌프 아웃으로 인해 0.3%의 성능 저하가 보고되었습니다. 18개월 간격으로 예약된 TIM 교체로 최고 성능을 유지합니다.
7. 클라우드와 온프레미스 TCO 비교 분석
Lambda는 다년 약정으로 GPU 시간당 최저 2.99달러에 B200 GPU를 제공합니다(Lambda 2025). 업계 배포의 실제 시설 비용을 통합한 재무 모델링을 통해 확인할 수 있습니다:
36개월 동안의 랙당 비용 분석:
하드웨어 자본비용: GB300 NVL72의 경우 $3.7~4.0만(예비품 및 툴링 포함)
시설 전력: 평균 사용률 85%, $0.08/kWh에서 310달러($31만)
냉각 인프라: 18만 달러(CDU, 배관, 제어 장치)
운영 직원: $24만(0.25 FTE 풀로드 비용)
총액: $443~473만 달러 대 470만 달러 클라우드 상당액
손익분기점은 감가상각, 자금 조달, 기회 비용을 고려할 때 18개월 동안 평균 67%의 사용률에서 발생합니다. 엔터프라이즈 CFO는 클라우드 공급업체 종속을 피하면서 예산 예측 가능성을 확보할 수 있습니다.
8. GB300과 GB200 비교: 블랙웰 울트라 이해
이전 세대 GB200 사진
GB300 NVL72(블랙웰 울트라)는 기존 GB200 NVL72에서 크게 발전한 제품입니다. 주요 개선 사항으로는 1.5배 향상된 AI 컴퓨팅 성능, GPU당 288GB HBM3e 메모리(192GB 대비), AI 추론 애플리케이션의 테스트 시간 확장 추론에 대한 집중 강화 등이 있습니다.
새로운 아키텍처는 호퍼에 비해 사용자당 초당 토큰 수가 10배, 메가와트당 TPS가 5배 향상되어 총 50배의 잠재적 AI 공장 생산량 증가를 가져옵니다. 따라서 GB300 NVL72는 정확도 향상을 위해 추론 과정에서 훨씬 더 많은 컴퓨팅을 필요로 하는 DeepSeek R1과 같은 새로운 AI 추론 시대에 특히 최적화되어 있습니다.
출시 일정: GB300 NVL72 시스템은 2025년 하반기에 파트너로부터 출시될 예정이며, 현재 사용 가능한 GB200 NVL72는 2025년 하반기에 출시될 예정입니다.
9. 포춘 500대 기업이 전문 배포 파트너를 선택하는 이유
선도적인 배포 전문가들은 850개 이상의 데이터센터에 100,000개 이상의 GPU를 설치했으며, 광범위한 현장 엔지니어링 팀을 통해 4시간 글로벌 서비스 수준 협약(SLA)을 유지하고 있습니다. 업계에서는 2022년부터 수천 마일의 광섬유와 수메가와트 규모의 전용 AI 인프라를 구축했습니다.
최근 배포 지표:
평균 사이트 준비 기간: 6.2주(업계 평균 11주에서 단축)
첫 번째 통과 성공률: 전원 켜기 테스트의 경우 97.3%
배포 후 문제 첫 90일 동안 0.08%의 구성 요소 장애율
OEM은 하드웨어를 출하하고, 전문 파트너는 하드웨어를 생산 인프라로 전환합니다. 계획 단계에서 숙련된 배포 팀을 참여시키면 조립식 전원 하네스, 사전 단계 냉각 루프, 공장 종단 광케이블 번들을 사용하여 일정을 45%까지 단축할 수 있습니다.
이별 생각
GB300 NVL72 캐비닛은 "랙 안의 서버"에서 "캐비닛 안의 데이터 센터"로의 근본적인 전환을 의미합니다. 물리학은 용서할 수 없습니다: 120kW의 컴퓨팅 밀도는 모든 전원 연결, 냉각 루프, 광케이블 종단에서 정밀성을 요구합니다. 첫날부터 엔지니어링 기본 사항을 숙지하면 Blackwell Ultra는 향후 수년간 혁신적인 AI 추론 성능을 제공할 것입니다.
2,000단어에 다 담을 수 없는 기술적 세부 사항에 대해 논의할 준비가 되셨나요? 배포 엔지니어는 이러한 대화에 능숙합니다. 다음에서 기술 심층 분석을 예약하십시오. solutions@introl.com.
참조
Dell Technologies. 2024. "고급 냉각, 고집적 컴퓨팅 및 AI 스토리지 혁신으로 데이터 센터를 혁신하는 Dell AI Factory." 보도 자료, 10월 15일. Dell Technologies 뉴스룸
Introl. 2025. "GPU 인프라 배포 및 글로벌 현장 엔지니어." 6월 23일 액세스. introl.com
Lambda. 2025. "AI 클라우드 가격 - NVIDIA B200 클러스터." 6월 23일 액세스. 람다 랩 가격
NVIDIA. 2025. "GB300 NVL72 제품 페이지." 6월 23일 액세스. NVIDIA 데이터 센터
NVIDIA. 2025. "엔비디아 블랙웰 울트라 AI 팩토리 플랫폼, AI 추론의 시대를 열다." 보도 자료, 3월 18일. NVIDIA 뉴스
슈퍼마이크로. 2025. "NVIDIA GB300 NVL72 슈퍼클러스터 데이터시트." 2월. 슈퍼마이크로 데이터시트
The Register. 2024. Mann, Tobias. "하나의 랙, 120kW의 컴퓨팅: NVIDIA의 DGX GB200 NVL72 비스트 자세히 살펴보기." March 21. The Register