랙당 40-250kW: 극도의 집적도 데이터센터 솔루션
5년 전에 구축된 데이터센터는 랙당 10kW를 냉각하는 데 어려움을 겪고 있습니다. 오늘날의 AI 워크로드에는 최소 40kW가 필요하며, 차세대 구축은 250kW를 목표로 합니다. 기존 인프라와 최신 요구 사항 간의 격차는 영리한 엔지니어링으로 해결할 수 있는 1,000억 달러 규모의 문제를 야기합니다.
NVIDIA의 GB200 NVL72 시스템은 단일 랙 구성에서 140kW를 소비합니다.¹ Microsoft의 최신 Azure 배포는 랙당 50kW를 일상적으로 사용합니다.² Google은 TPU 포드에서 60kW 밀도를 추진합니다.³ 어제의 클라우드를 지원하던 인프라는 내일의 AI를 처리할 수 없으며 기업은 처음부터 다시 구축하거나 격차를 해소하는 창의적인 솔루션을 엔지니어링하는 극명한 선택에 직면해 있습니다.
극한 밀도 냉각의 물리학
기존의 고상형 공기 냉각은 랙당 15kW를 초과하면 치명적으로 실패합니다. 뜨거운 공기를 재순환하면 온도가 통제 불능 상태로 치닫는 열 폭주 상태가 발생할 수 있습니다. 40kW 랙 한 대는 가정용 공간 난방기 14대를 연속으로 가동하는 것과 같은 열을 발생시킵니다. 이러한 랙 8개를 일렬로 배치하면 200평방피트에 달하는 소규모 사무실 건물의 열 출력을 관리할 수 있습니다.
엔지니어는 세 가지 기본 접근 방식을 통해 극도의 밀도 문제를 해결합니다. 직접 액체 냉각은 냉각수를 열원으로 직접 공급하여 후면 도어 열교환기 또는 냉각판으로 랙당 30~40kW를 제거합니다. 침수 냉각은 전체 시스템을 유전체 유체에 담가 50~100kW의 밀도를 처리하면서 팬이 필요 없는 방식입니다. 하이브리드 접근 방식은 여러 기술을 결합하여 GPU에는 액체 냉각을 사용하고 저밀도 구성 요소에는 공랭식 냉각을 유지합니다.
수학적으로도 액체 냉각은 결정적으로 유리합니다. 물의 열전달 계수는 공기의 3,500배를 초과합니다.⁴ 1갤런의 물은 3,000입방피트의 공기와 동일한 열을 제거할 수 있습니다. 수냉식 시스템은 1.02~1.10의 전력 사용 효율(PUE) 등급을 달성하는데 비해 기존 공냉식 시스템은 1.4~1.8입니다.⁵ PUE가 0.1 개선될 때마다 10MW 시설에서 연간 약 100만 달러를 절약할 수 있습니다.⁶
전력 분배 문제는 규모가 커질수록 더욱 복잡해집니다.
단일 랙에 250kW를 공급하려면 전력 인프라를 근본적으로 재설계해야 합니다. 기존의 208V 회로는 사람 팔보다 두꺼운 1,200암페어 연결 케이블이 필요합니다. 최신 시설에서는 전류 요구 사항을 줄이기 위해 415V 또는 480V 배전을 구축하지만 이러한 시스템에도 막대한 구리 투자가 필요합니다. 250kW 랙 하나에는 일반 가정 50개에 해당하는 전력 인프라가 필요합니다.
Introl의 현장 엔지니어들은 40kW 부하를 위해 5kW 설계를 개조하려는 시설에 정기적으로 직면합니다. 회로 차단기가 계속 트립됩니다. 변압기가 과열됩니다. 배전 장치가 처리하도록 설계되지 않은 부하에서 고장납니다. 건물의 총 전력 용량이 고밀도 랙 몇 개 이상을 지원하지 못해 18~24개월이 걸리는 고가의 유틸리티 업그레이드를 해야 하는 경우도 종종 발생합니다.
현명한 전력 설계는 가능한 경우 DC 배전에서 시작됩니다. 직류는 기존 AC 시스템에서 전력의 10~15%를 낭비하는 변환 손실을 제거합니다.⁷ Facebook의 오픈 컴퓨트 프로젝트는 DC 분배가 총 전력 소비를 20% 줄이면서 안정성을 개선한다는 사실을 입증했습니다.⁸ 최신 GPU 시스템은 점점 더 직접 DC 입력을 지원하여 발열을 발생시키고 효율성을 저하시키는 여러 변환 단계를 없애고 있습니다.
기계 인프라는 완전한 재구상이 필요합니다.
표준 데이터센터 바닥은 평방 피트당 150-250파운드를 지원합니다. 완전히 로드된 250kW 랙의 무게는 8,000파운드가 넘으며 10평방피트에 집중되어 있습니다.⁹ 바닥 보강이 의무화되어 구조 업그레이드에 랙당 50,000~100,000달러가 추가됩니다. 내진 구역은 지진 발생 시 장비 손상을 방지하는 특수 절연 시스템이 필요한 추가적인 문제에 직면합니다.
액체 냉각은 새로운 기계적 복잡성을 도입합니다. 냉각수 분배에는 기존 시설에는 없는 펌프, 열교환기, 여과 시스템이 필요합니다. 1MW 액체 냉각식 배포에는 분당 400~500갤런의 냉각수 흐름이 필요합니다.¹⁰ 누출 감지가 중요해집니다. 단 한 번의 냉각수 누출로 수백만 달러의 장비가 단 몇 초 만에 파괴될 수 있습니다. Introl은 습기를 감지한 후 100밀리초 이내에 작동하는 자동 차단 밸브를 통해 3중 중복 누출 감지 기능을 배포합니다.
배관 인프라만 해도 막대한 투자가 필요합니다. 구리 파이프의 설치 비용은 선형 피트당 30~50달러입니다.¹¹ 수냉식 랙의 한 줄에는 공급 및 회수 라인에 500~1,000피트의 배관이 필요합니다. 매니폴드, 밸브 및 연결 지점은 랙당 $20,000-$30,000를 추가합니다. 기계 인프라는 지원하는 컴퓨팅 장비보다 더 많은 비용이 드는 경우가 많습니다.
네트워크 아키텍처는 밀도 요구 사항에 맞게 조정됩니다.
극도의 밀도 컴퓨팅은 전례 없는 네트워크 대역폭을 요구합니다. 각 NVIDIA H100 GPU는 최적의 성능을 위해 400Gbps의 네트워크 연결이 필요합니다.¹² 8-GPU 서버에는 5년 전 전체 데이터센터가 소비한 것보다 많은 3.2Tbps의 총 대역폭이 필요합니다. 기존의 톱 오브 랙 스위칭 아키텍처는 이러한 요구 사항을 충족하는 데 어려움을 겪습니다.
고밀도 배포는 분리된 네트워킹 아키텍처의 채택을 촉진합니다. 스파인-리프 토폴로지는 트래픽 패턴에 관계없이 일관된 지연 시간과 대역폭을 제공합니다. 실리콘 포토닉스는 구리로는 달성할 수 없는 800Gbps 및 1.6Tbps 연결을 지원합니다.¹³ Introl의 배포에서는 3미터 미만의 연결에는 직접 연결 구리(DAC) 케이블을, 장거리에는 활성 광 케이블(AOC)을 사용하여 비용과 전력 소비를 모두 최적화하는 경우가 늘고 있습니다.
극도의 밀도에서는 케이블 관리가 놀라울 정도로 복잡해집니다. 40-GPU 랙에는 전원, 네트워킹, 관리를 위해 200개 이상의 케이블이 필요합니다. 각 케이블은 전기 저항을 통해 열을 발생시킵니다. 케이블 관리가 제대로 이루어지지 않으면 공기 흐름이 제한되어 열 스로틀링을 유발하는 핫스팟이 발생합니다. Introl의 엔지니어는 설치 시간의 20~30%를 케이블 관리에 할애하여 적절한 굴곡 반경을 유지하면서 냉각 효율을 극대화하는 특수 라우팅 시스템을 활용합니다.
지리적 제약에 따라 배포 전략이 달라집니다.
싱가포르는 첫날부터 랙당 50~100kW로 설계된 새로운 시설로 전 세계 밀도 도입을 선도하고 있습니다.¹⁴ 토지 부족으로 인해 수직 확장과 평방 피트당 최대 컴퓨팅을 추진하고 있습니다. 정부 인센티브는 세금 감면과 신속한 허가를 통해 액체 냉각 도입을 지원합니다. Introl의 APAC 입지 지역 요구사항과 규정을 이해하는 현지 엔지니어와 함께 혁신의 중심에 서 있습니다.
북유럽 시장은 추운 기후를 활용하여 냉각에 유리한 이점을 누리고 있습니다. 스톡홀름의 데이터센터는 차가운 발트해의 물을 이용해 열을 제거하여 연중 1.10.¹⁵ 미만의 PUE를 달성하고 있으며, 노르웨이의 시설은 수력 발전과 자연 냉각을 결합하여 세계에서 가장 효율적인 AI 인프라를 구축하고 있습니다. Introl은 글로벌 연결 표준을 유지하면서 이러한 지리적 이점을 활용하는 배포를 관리합니다.
물 가용성에 따라 설치 위치가 결정되는 경우가 점점 더 많아지고 있습니다. 액체 냉각 시스템은 냉각 용량 kW당 분당 0.1~0.2갤런을 소비합니다.¹⁶ 10MW 시설에는 분당 1,000~2,000갤런이 필요하며, 이는 5시간마다 올림픽 수영장을 채울 수 있는 양입니다. 사막 지역에서는 공기 냉각의 비효율성과 물 부족 사이에서 불가능한 선택에 직면해 있습니다. 미래 지향적인 기업들은 이제 데이터센터 입지를 선정할 때 전력 가용성과 함께 용수권을 평가합니다.
경제 모델이 채택 결정을 주도합니다.
고집적 인프라의 비즈니스 사례는 워크로드 특성에 따라 달라집니다. 몇 주 동안 지속적으로 실행되는 AI 학습 워크로드는 효율성을 개선하는 모든 투자를 정당화합니다. 한 달간 실행되는 훈련에서 1%의 성능 향상은 7.2시간의 컴퓨팅 시간을 절약합니다. H100 인스턴스의 경우 GPU 시간당 40달러로, 겉보기에 작은 최적화가 엄청난 수익을 창출합니다.¹⁷
자본 비용(CapEx)을 비교하면 기존 인프라가 유리하지만 운영 비용(OpEx)은 다른 이야기를 들려줍니다. 액체 냉각은 공냉식 냉각에 비해 전력 소비를 30~40% 절감합니다.¹⁸ 1MW를 구축하면 전기 비용만 연간 40만~50만 달러를 절감합니다.¹⁹ 기계적 마모가 감소하여 장비 수명이 20~30% 연장되고 교체 비용이 지연됩니다.²⁰ 밀도가 높아지면 기존 시설에서 더 많은 컴퓨팅을 수행할 수 있으므로 메가와트당 평균 1,000만~1,500만 달러의 신규 구축 비용을 피합니다.¹²¹
총소유비용(TCO) 모델은 기회 비용을 고려해야 합니다. 고밀도 인프라를 구축할 수 없는 조직은 구축할 수 있는 조직에 비해 경쟁 우위를 잃게 됩니다. 최적화된 인프라가 없다면 OpenAI의 GPT 트레이닝 실행은 10배 더 오래 걸릴 것입니다.²² 랙당 40kW와 100kW의 차이에 따라 모델이 몇 주 안에 트레이닝할지 몇 달 안에 트레이닝할지가 결정됩니다. 시장 리더십은 점점 더 기존 지표로는 포착할 수 없는 인프라 기능에 의존하고 있습니다.
운영의 복잡성에는 새로운 전문성이 필요합니다.
고밀도 인프라를 관리하려면 기존 데이터센터 팀에는 부족한 기술이 필요합니다. 액체 냉각 시스템에는 IT 부서에서는 거의 찾아보기 힘든 배관 전문 지식이 필요합니다. 기술자는 유체 역학, 차압, 냉각수의 화학을 이해해야 합니다. 매개변수 하나만 잘못 설정해도 압력이 너무 높으면 연결부가 파열되고, 너무 낮으면 펌프 캐비테이션이 발생하는 등 치명적인 고장이 발생할 수 있습니다.
Introl은 550명의 현장 엔지니어를 위한 전문 교육 프로그램을 통해 전문성 격차를 해소합니다. 팀은 냉각수 흐름 문제를 진단하고, 냉각 분배 장치에 대한 예방 유지보수를 수행하며, 누출 이벤트에 대응하는 방법을 배웁니다. 인증 프로그램은 다양한 냉각 기술에 대한 제조업체별 요구 사항을 다룹니다. 지역 팀은 글로벌 지식 기반을 통해 모범 사례를 공유하여 257개 지사 전체에서 일관된 서비스 품질을 보장합니다.
모니터링 시스템은 기존 인프라보다 10~100배 더 많은 데이터를 생성합니다. 각 랙은 온도, 압력, 유량, 전력 소비, 구성 요소 상태를 포함하는 수천 개의 원격 측정 지점을 생성합니다. 머신 러닝 알고리즘은 장애가 발생하기 전에 장애를 예측하는 패턴을 식별합니다. Introl의 운영팀은 예측 분석을 사용하여 계획된 다운타임 기간 동안 유지보수를 예약함으로써 중요한 AI 워크로드에 대해 99.999%의 가용성을 달성합니다.
미래 기술은 한계를 더욱 확장합니다.
차세대 GPU는 훨씬 더 극한의 인프라를 요구할 것입니다. NVIDIA의 로드맵에 따르면 2027년까지 GPU당 1,500~2,000W를 소비할 것으로 예상됩니다.²³ AMD의 MI400 시리즈도 비슷한 전력 소비를 목표로 합니다.²⁴ 브레인 웨이퍼 규모의 엔진은 이미 단일 장치에서 23kW를 소비합니다.²⁵ 미래의 인프라는 현재 불가능해 보이는 밀도를 처리해야 합니다.
2상 침수 냉각은 극도의 밀도를 위한 궁극적인 솔루션으로 부상하고 있습니다. 유전체 유체는 정밀하게 제어된 온도에서 끓기 때문에 등온 냉각을 통해 구성 요소를 최적의 작동 지점으로 유지합니다. 액체에서 증기로의 상 변화는 랙당 최대 250kW의 엄청난 양의 열을 흡수합니다.²⁶ 미국 에너지부는 엑사스케일 컴퓨팅 시스템을 위한 2상 냉각 연구에 자금을 지원하고 있습니다.²⁷
소형 모듈형 원자로(SMR)는 그리드 전력 제약을 없앨 수 있습니다. 하이퍼스케일러는 원자력을 데이터센터와 함께 배치하여 예측 가능한 비용으로 무탄소 전력을 공급하는 방안을 모색합니다. 단일 300MW SMR은 24,000개의 GPU에 충분한 3,000개의 100kW 랙에 전력을 공급할 수 있습니다.²⁸ 규제 승인은 여전히 어렵지만 충분한 규모에서는 경제성이 매력적으로 다가옵니다.
앞으로 나아가기 위해서는 즉각적인 조치가 필요합니다.
오늘날 AI 인프라를 구축하는 조직은 향후 10년간의 경쟁 우위를 결정하는 중요한 결정에 직면해 있습니다. 40kW 밀도를 위해 기존 시설을 개조하는 데는 랙당 5만~10만 달러의 비용이 듭니다.²⁹ 100kW 지원 인프라를 새로 구축하는 데는 랙당 20만~30만 달러의 비용이 들지만 향후 성장을 위한 활로를 제공합니다.³⁰ 잘못된 선택은 AI 워크로드가 폭증하는 상황에서 구식 인프라에 조직을 묶어두는 결과를 초래할 수 있습니다.
성공적인 전환은 종합적인 평가에서 시작됩니다. Introl의 엔지니어링 팀은 최적의 성능을 보장하기 위해 기존 전력 용량, 냉각 인프라, 구조적 지원 및 네트워크 아키텍처를 평가합니다. 밀도 증가를 제한하는 병목 현상을 파악하고 중단을 최소화하는 단계적 업그레이드 계획을 개발합니다. 전 세계에 진출한 아루바는 고객이 극도의 밀도 솔루션을 필요로 하는 곳이면 어디든 전문 장비와 전문 지식을 신속하게 배포할 수 있습니다.
AI 인프라의 승자는 극도의 밀도에 맞서 싸우기보다 이를 수용하는 기업이 될 것입니다. 한 달의 지연은 경쟁업체가 모델을 더 빨리 학습시키고, 더 빨리 기능을 배포하며, 더 먼저 시장을 선점한다는 것을 의미합니다. 문제는 고밀도 인프라를 도입할지 여부가 아니라, AI 시대의 경쟁 우위를 정의하는 컴퓨팅 요구 사항을 지원하기 위해 조직이 얼마나 빨리 시설을 혁신할 수 있는지에 달려 있습니다.
참조
NVIDIA. "NVIDIA DGX GB200 NVL72 수냉식 랙 시스템." NVIDIA Corporation, 2024. https://www.nvidia.com/en-us/data-center/dgx-gb200/
Microsoft Azure. "AI 워크로드를 위한 인프라 혁신." Microsoft Corporation, 2024. https://azure.microsoft.com/en-us/blog/azure-infrastructure-ai/
구글 클라우드. "TPU v5p: 대규모 언어 모델을 위한 클라우드 TPU 포드." Google LLC, 2024. https://cloud.google.com/tpu/docs/v5p
ASHRAE. "데이터 센터 애플리케이션에서 물과 공기의 열적 특성." ASHRAE 기술 위원회 9.9, 2024.
가동 시간 연구소. "글로벌 데이터 센터 설문 조사 2024: PUE 동향." 업타임 연구소, 2024. https://uptimeinstitute.com/resources/research/annual-survey-2024
로렌스 버클리 국립 연구소. "데이터 센터 에너지 효율 비용 편익 분석." LBNL, 2023. https://datacenters.lbl.gov/resources
오픈 컴퓨트 프로젝트. "DC 전력 분배의 이점 분석." OCP 재단, 2023. https://www.opencompute.org/projects/dc-power
---. "페이스북 프라인빌 데이터 센터 효율성 보고서." OCP 재단, 2023. https://www.opencompute.org/datacenter/prineville
슈나이더 일렉트릭. "고밀도 랙 무게 및 바닥 적재 가이드." 슈나이더 일렉트릭, 2024. https://www.se.com/us/en/download/document/SPD_VAVR-ABZGDH_EN/
Vertiv. "AI 인프라를 위한 액체 냉각 설계 가이드라인." Vertiv, 2024. https://www.vertiv.com/en-us/solutions/learn-about/liquid-cooling-guide/
RSMeans. "2024 기계 비용 데이터: 배관 시스템." Gordian RSMeans 데이터, 2024.
NVIDIA. "NVIDIA H100 텐서 코어 GPU 아키텍처 백서." NVIDIA Corporation, 2023. https://resources.nvidia.com/en-us-tensor-core/nvidia-h100-datasheet
Intel. "실리콘 포토닉스: 데이터 센터 연결의 획기적인 발전." Intel Corporation, 2024. https://www.intel.com/content/www/us/en/architecture-and-technology/silicon-photonics/silicon-photonics-overview.html
인포콤 미디어 개발청. "싱가포르 데이터 센터 로드맵 2024." IMDA 싱가포르, 2024. https://www.imda.gov.sg/resources/data-centre-roadmap
DigiPlex. "스톡홀름 데이터 센터: 지속 가능한 냉각 혁신." DigiPlex, 2023. https://www.digiplex.com/stockholm-datacenter
ASHRAE. "데이터 센터를 위한 액체 냉각 지침, 2판." ASHRAE 기술 위원회 9.9, 2024.
아마존 웹 서비스. "EC2 P5 인스턴스 가격." AWS, 2024. https://aws.amazon.com/ec2/instance-types/p5/
Dell Technologies. "직접 액체 냉각 ROI 분석." Dell Technologies, 2024. https://www.dell.com/en-us/dt/solutions/high-performance-computing/liquid-cooling.htm
미국 에너지 정보국. "주별 상업용 전기 요금." EIA, 2024. https://www.eia.gov/electricity/monthly/epm_table_grapher.php
Submer. "침수 냉각이 하드웨어 수명에 미치는 영향 연구." Submer, 2023. https://submer.com/resources/hardware-longevity-study/
JLL. "데이터 센터 구축 비용 가이드 2024." 존스 랑 라살, 2024. https://www.us.jll.com/en/trends-and-insights/research/data-center-construction-costs
OpenAI. "GPT-4 교육 인프라 요구 사항." OpenAI, 2023. https://openai.com/research/gpt-4-infrastructure
NVIDIA. "다년간 GPU 로드맵 업데이트." NVIDIA GTC 2024 기조연설, 2024년 3월.
AMD. "Instinct MI400 시리즈 사전 발표." AMD 투자자의 날, 2024년 6월.
Cerebras. "CS-3 웨이퍼 스케일 엔진 사양." 세레브라스 시스템즈, 2024. https://www.cerebras.net/product-chip/
3M. "데이터 센터용 Novec 2상 침수 냉각." 3M Corporation, 2024. https://www.3m.com/3M/en_US/data-center-us/applications/immersion-cooling/
미국 에너지부. "엑사스케일 컴퓨팅 프로젝트: 냉각 혁신." DOE 과학국, 2024. https://www.exascaleproject.org/cooling-research/
뉴스케일 파워. "데이터 센터 전력을 위한 SMR 애플리케이션." 뉴스케일 파워 코퍼레이션, 2024. https://www.nuscalepower.com/applications/data-centers
Gartner. "데이터 센터 현대화 비용 분석 2024." 가트너, 2024.
---. "그린필드 AI 데이터 센터 건설 경제학." 가트너, 2024.