Isambard-AI는 4개월 만에 5,448개의 GPU를 배포한 방법: AI 인프라의 새로운 청사진
브리스톨의 국립 복합재료 센터에 있는 창고를 개조한 건물에 들어가면 수냉식 캐비닛 뒤에서 150톤의 최첨단 컴퓨팅 하드웨어가 웅웅거리는 것을 볼 수 있습니다: 바로 영국에서 가장 강력한 인공 지능 슈퍼컴퓨터인 Isambard-AI입니다. 물론 헤드라인은 21엑사플롭스의 AI 성능을 자랑하지만, 여기에는 2억 2,500만 파운드 규모의 이 프로젝트를 단 24개월 만에 온라인화하기 위해 팀이 극복한 특별한 인프라 문제가 숨어 있습니다. 5년 전? 불가능한 타임라인입니다.
Isambard-AI의 5,448개 NVIDIA 그레이스 호퍼 슈퍼칩 배포는 중요한 발전을 보여줍니다. 이제 AI 컴퓨팅의 성공은 단순히 GPU를 구입하는 것 이상에 달려 있습니다. 최신 AI 인프라가 요구하는 전력, 냉각, 네트워킹 및 물류의 복잡한 에코시스템을 마스터해야 합니다. 대규모 GPU 배포를 계획하는 조직은 이러한 과제와 이를 극복하는 데 필요한 전문 지식을 더 잘 이해해야 합니다.
5메가와트와 150톤의 실리콘이 만났을 때
Isambard-AI는 기존 데이터센터의 상식을 깨는 규모입니다. 12개의 HPE Cray EX4000 캐비닛 각각에 440개의 GPU가 장착되어 있어 기존 시스템을 녹일 정도의 열 밀도를 생성합니다. 기존의 공랭식 냉각 방식은 랙당 20kW를 넘어서는 데 어려움을 겪습니다. Isambard-AI는? 캐비닛당 400kW 이상. 이 솔루션은 100% 직접 액체 냉각 방식이었지만 이를 구현하려면 완전히 새로운 기술이 필요했습니다.
인프라 배포 환경은 "Isambard-AI와 같은 배포에서 우리가 보고 있는 것은 데이터센터 전문성을 구성하는 근본적인 변화입니다."라고 말합니다. 기존의 랙 앤 스택 운영에 집중하던 기업들은 이제 액체 냉각 역학, 고밀도 케이블 관리, 수천 개의 GPU를 동시에 시운전하는 방법을 이해하는 엔지니어를 필요로 합니다. 브리스톨 대학교의 팀은 전문 구축 파트너와 협력하여 40,000개 이상의 광섬유 연결을 설치했습니다. 이는 작은 도시를 한 바퀴 돌 수 있을 만큼의 케이블입니다. 또한 1.8TB/s로 작동하는 시스템의 5세대 NVLink 인터커넥트에 필요한 정밀도를 유지해야 했습니다.
이 프로젝트는 계약 체결부터 운영까지 4개월 이내에 완료되었습니다. 어떻게요? GPU 인프라 배포 전문 업체는 이제 72시간 내에 수백 명의 숙련된 기술자를 동원할 수 있습니다. 이들은 기존의 IT 계약업체가 아닙니다. 이들은 액체 냉각 연결에 필요한 특정 토크 사양과 전력 시스템에 무리를 주지 않으면서 수천 개의 GPU를 온라인 상태로 전환하기 위한 최적의 시퀀스를 알고 있는 전문 팀입니다.
AI 우선 인프라의 숨겨진 복잡성
기존 슈퍼컴퓨터는 AI 워크로드에 맞게 개조됩니다. Isambard-AI는 처음부터 인공지능 애플리케이션을 위해 설계되었습니다. AI 우선 접근 방식은 모든 인프라 결정에 영향을 미쳤습니다. 이 팀은 HPE의 모듈형 데이터 센터 설계를 선택하여 단 48시간 만에 현장에서 조립했습니다. 또한 에너지 효율성 부문에서 세계 4위를 차지한 시스템에 걸맞게 탄소 배출 제로 전원 공급 장치를 선택했습니다.
네트워킹 인프라만으로도 엄청난 엔지니어링 조정이 이루어졌습니다. 시스템의 HPE Slingshot 11 네트워크는 64개 포트에서 25.6Tb/s의 양방향 대역폭을 제공하며 각 노드는 800Gbps의 네트워크 인젝션 대역폭을 수신합니다. 이 복잡한 연결 웹을 설치하고 검증하려면 일반적인 엔터프라이즈 배포를 훨씬 뛰어넘는 고성능 네트워킹에 대한 전문 지식이 필요합니다. 최신 GPU 인프라 전문가는 물리 계층과 다양한 상호 연결 토폴로지가 AI 워크로드 성능에 어떤 영향을 미치는지 이해해야 합니다.
전력 공급에는 고유한 과제가 있었습니다. Isambard-AI의 총 시설 전력은 5MW로 하이퍼스케일 데이터센터에 비하면 크지 않은 수준이지만, 이 전력 공급의 밀도와 중요성 때문에 고유한 요구사항이 발생했습니다. 각각의 그레이스 호퍼 슈퍼칩은 정밀한 전력 공급을 요구합니다. 5,448개가 동시에 작동하기 때문에 사소한 변동에도 시스템 불안정이 발생할 수 있습니다. 배포 팀은 밀리초 이내에 이상을 감지하고 대응할 수 있는 실시간 모니터링 기능을 갖춘 정교한 전원 관리 시스템을 구현했습니다.
유럽의 AI 인프라 경쟁에서 배우기
Isambard-AI는 유럽 국가들이 AI 패권을 놓고 치열한 경쟁을 벌이는 가운데 구축되었습니다. 핀란드의 LUMI 시스템은 380페타플롭스의 기존 컴퓨팅 성능을 제공합니다. 곧 출시될 독일의 주피터 슈퍼컴퓨터는 유럽 최초의 엑사스케일 시스템이 될 예정입니다. 하지만 Isambard-AI는 유럽의 다른 어떤 시스템보다 빠르게 운영 상태를 달성했습니다. 초기 제안에서 전체 운영까지 2년이 채 걸리지 않았습니다. 동급 시스템의 일반적인 일정이 4~5년인 것과 비교해보십시오.
이러한 속도 이점은 부분적으로는 브렉시트 이후 영국의 간소화된 조달 프로세스에서 비롯된 것입니다. 하지만 더 중요한 것은 GPU 배포 방법론의 진화에서 비롯된 것입니다. 기존의 슈퍼컴퓨터 설치는 인프라, 하드웨어, 네트워킹, 소프트웨어의 순차적인 단계를 따랐습니다. 최신 GPU 배포는 병렬 워크플로우를 활용합니다. 전문 팀이 수냉식 설치, GPU 커미셔닝, 네트워크 구성을 동시에 진행하여 일정을 획기적으로 단축합니다.
다른 유럽 배포 사례와 대조적으로 귀중한 교훈을 얻을 수 있습니다. 스페인의 마레노스트럼 5는 인상적인 사양에도 불구하고 기존 시설에 대한 광범위한 개조가 필요했습니다. 이탈리아의 레오나르도 시스템은 AI 가속 기능 통합이 지연되는 문제에 직면했습니다. Isambard-AI의 성공은 특정 GPU 전문성을 갖춘 팀이 구축한 특수 목적의 AI 인프라가 개조된 HPC 시스템보다 더 빠른 과학 실현 시간을 달성할 수 있다는 것을 보여줍니다.
AI의 야망을 위협하는 전문성 격차
전 세계 기업들이 AI 인프라를 구축하기 위해 경쟁하고 있지만, 중요한 기술 격차가 발생하고 있습니다. 기존 데이터센터 기술자는 경험이 풍부하더라도 최신 GPU 배포에 필요한 전문 지식이 부족한 경우가 많습니다. 액체 냉각 시스템은 유체 역학 및 열 관리에 대한 이해가 필요합니다. 고밀도 GPU 구성에는 기존 서버 배포를 뛰어넘는 전력 공급 및 공기 흐름 최적화에 대한 전문 지식이 필요합니다.
이러한 전문성 격차는 몇 가지 영역에서 가장 크게 드러납니다. GPU 클러스터의 케이블 관리는 전문 분야가 되었습니다. Isambard-AI의 수천 개의 고속 연결은 신호 무결성을 유지하면서 유지보수 액세스를 허용하기 위해 정밀한 라우팅이 필요했습니다. 전력 및 냉각 기술자는 정상 상태 요구 사항뿐만 아니라 몇 밀리초 만에 유휴 상태에서 최대 전력으로 전환될 수 있는 AI 워크로드의 동적 동작도 이해해야 합니다.
이러한 격차를 메우기 위해 introl.com과 같은 회사가 등장하여 전통적인 데이터센터 기술과 GPU 관련 전문 지식을 결합한 전문 팀을 개발했습니다. 이들이 구축한 1,000개 이상의 GPU 노드 시스템은 이 새로운 유형의 인프라 전문 기업이 얼마나 큰 규모로 운영되는지 보여줍니다. 최근 주요 GPU 클라우드 제공업체의 배포에서 볼 수 있듯이 일주일 이내에 40명의 기술자를 동원할 수 있는 능력은 기존 데이터센터 업계에는 존재하지 않았던 새로운 운영 역량을 나타냅니다.
배포 그 이후: 우수한 AI 인프라 유지
문제는 마지막 GPU의 전원이 켜진다고 해서 끝나지 않습니다. Isambard-AI와 같은 시스템을 유지하려면 지속적인 최적화와 사전 예방적 관리가 필요합니다. 브리스톨 대학교 팀은 GPU 사용률 패턴부터 냉각수 유량까지 모든 것을 추적하는 정교한 모니터링 시스템을 구현했습니다. 이 시스템의 노드당 850GB의 통합 메모리 주소 공간은 사소한 비효율도 연구 생산성에 큰 영향을 미칠 수 있습니다.
최신 GPU 인프라는 물리적 시스템에 대한 DevOps 접근 방식을 요구합니다. 펌웨어 업데이트는 엔지니어링 팀이 수천 대의 디바이스에 걸쳐 신중하게 조율해야 합니다. 냉각 시스템은 사용 패턴과 환경 조건을 기반으로 예측 유지보수가 필요합니다. 네트워크 구성은 진화하는 워크로드 패턴에 맞게 최적화하기 위해 지속적인 튜닝이 필요합니다. 이러한 운영상의 복잡성으로 인해 인프라 파트너가 일회성 배포가 아닌 지속적인 최적화를 제공하는 전문 서비스 모델이 개발되고 있습니다.
경제적 영향도 큽니다. 각각의 그레이스 호퍼 슈퍼칩은 상당한 자본 투자를 의미합니다. 유휴 시간은 투자 수익률에 직접적인 영향을 미칩니다. 대규모 GPU 클러스터를 배포하는 조직은 설치뿐 아니라 지속적인 최적화 서비스를 제공할 수 있는 파트너에 점점 더 의존하고 있습니다. 주요 AI 인프라 배포의 목표인 95% 이상의 사용률을 유지하려면 워크로드 스케줄링, 리소스 할당, 시스템 상태에 대한 지속적인 주의가 필요합니다.
AI 인프라의 미래 차트 작성
Isambard-AI의 성공적인 배포는 자체 AI 인프라 이니셔티브를 계획하는 조직에 중요한 교훈을 제공합니다. 첫째, GPU를 단순한 서버 구성 요소로 취급하던 시대는 끝났습니다. 최신 AI 시스템은 초기 계획 단계부터 전력, 냉각, 네트워킹 및 운영에 대한 총체적인 사고가 필요합니다. 둘째, Isambard-AI가 달성한 단축된 타임라인(개념에서 운영까지 2년 이내)이 새로운 표준이 되고 있지만 이는 전문 배포 팀과 협력하는 조직에만 해당됩니다.
앞으로 인프라 문제는 더욱 심화될 것입니다. NVIDIA의 블랙웰 아키텍처는 GPU당 1,000W를 초과하는 일부 구성을 통해 훨씬 더 높은 전력 밀도를 약속합니다. 액체 냉각은 고급 옵션에서 절대적인 필수 요소로 전환될 것입니다. 네트워크 대역폭 요구 사항은 모델 크기가 10조 개의 매개변수를 향해 나아감에 따라 기하급수적으로 증가할 것입니다. 전문화된 GPU 인프라에 대한 전문 지식이 부족한 조직은 점점 더 AI 혁명에서 경쟁할 수 없게 될 것입니다.
Isambard-AI에 대한 영국의 투자는 단순한 기술적 성과 그 이상을 의미합니다. 이는 국가와 조직이 어떻게 세계적 수준의 AI 인프라를 신속하게 구축할 수 있는지에 대한 청사진을 제시합니다. 이 프로젝트는 특수 목적의 시설, 간소화된 조달 프로세스, 전문 배포 팀과의 파트너십을 결합하여 AI 시대의 인프라 과제가 막강하지만 결코 극복할 수 없는 것이 아님을 보여줍니다. 적절한 전문 지식과 파트너십에 투자할 의향이 있다면, 야망에서 운영 가능한 AI 슈퍼컴퓨팅으로 가는 길은 그 어느 때보다 간단합니다.
전 세계 대학, 기업, 정부는 자체적인 AI 인프라 투자를 고려하고 있습니다. Isambard-AI는 올바른 접근 방식과 적절한 파트너가 있다면 가장 야심찬 GPU 배포도 혁신의 속도로 제안에서 생산으로 나아갈 수 있다는 것을 증명합니다. 이제 문제는 더 이상 AI 인프라를 구축할지 여부가 아니라 이를 올바르게 구축하는 데 필요한 전문 지식을 활용할 수 있는지 여부입니다.
참조
얼라이언스 케미컬. "AI GPU 냉각 혁명: 탈이온수, 에틸렌 글리콜 및 프로필렌." 얼라이언스 케미컬. 2025 년 8 월 1 일 액세스. https://alliancechemical.com/blogs/articles/ai-gpu-cooling-revolution-deionized-water-ethylene-glycol-propylene-glycol-the-ultimate-liquid-cooling-guide.
컴퓨터 위클리. "브리스톨, 영국 AI 슈퍼컴퓨터 가동." 컴퓨터 위클리, 2025. https://www.computerweekly.com/news/366584173/Bristol-goes-live-with-UK-AI-supercomputer.
컴퓨터 위클리. "영국 정부, HPE와 함께 브리스톨 대학교 AI 슈퍼컴퓨터 구축에 2억 2,500만 파운드 지원 약속." 컴퓨터 위클리, 11월 2023. https://www.computerweekly.com/news/366558036/UK-government-pledges-225m-to-fund-University-of-Bristol-AI-supercomputer-build-with-HPE.
데이터 센터 지식. "다이렉트 투 칩 액체 냉각: 데이터 센터 효율성 최적화." 데이터 센터 지식. 2025년 8월 1일 액세스됨. https://www.datacenterknowledge.com/cooling/direct-to-chip-liquid-cooling-optimizing-data-center-efficiency.
EuroHPC 공동 사업. "마레노스트럼 5의 출범: 유럽은 새로운 세계적 수준의 슈퍼컴퓨터를 맞이합니다." 2023년 12월 21일. https://www.eurohpc-ju.europa.eu/inauguration-marenostrum-5-europe-welcomes-new-world-class-supercomputer-2023-12-21_en.
EuroHPC 공동 사업. "마레노스트럼5: 스페인의 새로운 EuroHPC 세계 최고 수준의 슈퍼컴퓨터." 2022년 6월 16일. https://eurohpc-ju.europa.eu/marenostrum5-new-eurohpc-world-class-supercomputer-spain-2022-06-16_en.
율리히 연구소. "주피터 기술 개요." 2025 년 8 월 1 일 액세스. https://www.fz-juelich.de/en/ias/jsc/jupiter/tech.
GOV.UK. "소버린 AI AIR 출시 기회: 연구자 모집." 2025년 8월 1일에 액세스했습니다. https://www.gov.uk/government/publications/sovereign-ai-airr-launch-opportunity-call-for-researchers/sovereign-ai-airr-launch-opportunity-call-for-researchers.
휴렛팩커드 엔터프라이즈. "영국 정부는 브리스톨 대학교 및 휴렛팩커드 엔터프라이즈와 함께 영국에서 가장 강력한 AI 슈퍼컴퓨터를 만들기 위해 2억 2,500만 파운드를 투자합니다." 보도 자료, 2023년 11월. https://www.hpe.com/us/en/newsroom/press-release/2023/11/uk-government-invests-225m-to-create-uks-most-powerful-ai-supercomputer-with-university-of-bristol-and-hewlett-packard-enterprise.html.
HPCwire. "브리스톨 대학교, AI 및 HPC의 새로운 시대를 여는 Isambard-AI 슈퍼컴퓨터 유치." HPCwire. 2025년 8월 1일 액세스. https://www.hpcwire.com/off-the-wire/university-of-bristol-to-host-isambard-ai-supercomputer-marking-a-new-era-in-ai-and-hpc/.
하이퍼스택. "NVIDIA 블랙웰 GPU의 모든 것: 아키텍처, 기능, 칩 사양." 2025년 8월 1일 액세스. https://www.hyperstack.cloud/blog/thought-leadership/everything-you-need-to-know-about-the-nvidia-blackwell-gpus.
IBM. "인트롤 솔루션, LLC." IBM 파트너 플러스 디렉토리. 2025년 8월 1일에 액세스했습니다. https://www.ibm.com/partnerplus/directory/company/9695.
Introl. "GPU 인프라 배포 | GPU 배포 최적화." 2025년 8월 1일 액세스. https://introl.com/gpu-infrastructure-deployments.
Introl. "Introl - GPU 인프라 및 데이터 센터 배포 전문가." 2025년 8월 1일 액세스. https://introl.com.
Introl. "Introl | GPU 인프라, 데이터 센터 솔루션 및 HPC 배포." 2025년 8월 1일 액세스. https://introl.com/blog.
IT Pro. "영국에서 가장 강력한 슈퍼컴퓨터, Isambard-AI 내부." IT Pro. 2025 년 8 월 1 일 액세스. https://www.itpro.com/infrastructure/inside-isambard-ai-the-uks-most-powerful-supercomputer.
IT4혁신. "LUMI." 2025 년 8 월 1 일 액세스. https://www.it4i.cz/en/infrastructure/lumi.
제트쿨. "AI 데이터 센터를 위한 직접 액체 냉각이란 무엇인가요?" 2025년 8월 1일 액세스. https://jetcool.com/post/what-is-direct-liquid-cooling-for-ai-data-centers/.
NVIDIA. "고급 멀티 GPU 통신을 위한 NV링크 및 NV스위치." 2025년 8월 1일 액세스. https://www.nvidia.com/en-us/data-center/nvlink/.
NVIDIA. "AI 팩토리의 엔진 | NVIDIA 블랙웰 아키텍처." 2025년 8월 1일 액세스. https://www.nvidia.com/en-us/data-center/technologies/blackwell-architecture/.
NVIDIA 블로그. "물 효율을 300배 이상 향상시키는 NVIDIA 블랙웰 플랫폼." 2025년 8월 1일 액세스. https://blogs.nvidia.com/blog/blackwell-platform-water-efficiency-liquid-cooling-data-centers-ai-factories/.
ResearchGate. "Isambard-AI: 인공 지능에 특별히 최적화된 리더십급 슈퍼컴퓨터." 2024년 10월. https://www.researchgate.net/publication/384938455_Isambard-AI_a_leadership_class_supercomputer_optimised_specifically_for_Artificial_Intelligence.
SDxCentral. "3억 달러 규모의 영국 Isambard-AI 슈퍼컴퓨터 공식 출시." SDxCentral. 2025 년 8 월 1 일 액세스. https://www.sdxcentral.com/news/uks-300m-isambard-ai-supercomputer-officially-launches/.
테크타겟. "액체 냉각의 순간은 AI의 도움으로 찾아옵니다." TechTarget. 2025 년 8 월 1 일 액세스. https://www.techtarget.com/searchdatacenter/feature/Liquid-coolings-moment-comes-courtesy-of-AI.
엔지니어. "Isambard AI 슈퍼컴퓨터, 브리스톨에서 출시." 엔지니어. 2025 년 8 월 1 일 액세스. https://www.theengineer.co.uk/content/news/isambard-ai-supercomputer-launches-in-bristol/.
영국 연구 및 혁신. "새로운 AI 연구 자원의 첫 번째 단계에 3억 파운드 투자." 2025년 8월 1일에 액세스했습니다. https://www.ukri.org/news/300-million-to-launch-first-phase-of-new-ai-research-resource/.
브리스톨 대학교. "2023: 아이삼바드 AI 브리스톨." 환경을위한 캐봇 연구소. 2025 년 8 월 1 일 액세스. https://www.bristol.ac.uk/cabot/news/2023/isambard-ai-bristol.html.
브리스톨 대학교. "7월: 영국에서 가장 강력한 슈퍼컴퓨터가 브리스톨에서 출시됩니다." 뉴스 및 기능, 2025년 7월. https://www.bristol.ac.uk/news/2025/july/isambard-launch.html.
브리스톨 대학교. "11월: 영국에서 가장 강력한 슈퍼컴퓨터를 만들기 위한 전례 없는 2억 2,500만 파운드 투자." 뉴스 및 기능, 2023년 11월. https://www.bristol.ac.uk/news/2023/november/supercomputer-announcement.html.
위키백과. "블랙웰 (마이크로 아키텍처)." 2025 년 8 월 1 일 액세스. https://en.wikipedia.org/wiki/Blackwell_(마이크로 아키텍처).
위키피디아. "루미." 2025 년 8 월 1 일 액세스. https://en.wikipedia.org/wiki/LUMI.
"Isambard-AI: 인공 지능에 특별히 최적화된 리더십 클래스 슈퍼컴퓨터." arXiv 사전 인쇄물 arXiv:2410.11199 (2024). http://arxiv.org/pdf/2410.11199.