인공지능 시대의 다운타임 비용 줄이기
하드웨어 장애를 어느 정도 정확하게 예측할 수 있는 능력은 정보 기술(IT)에 막대한 자본을 투자한 서비스 제공업체에게 엄청난 비용을 절감할 수 있는 잠재력을 제공합니다. 고가의 고성능 컴퓨팅(HPC) 및 인공 지능(AI) 플랫폼을 대규모로 운영하는 기업 고객에게는 서비스 가용성이 가장 중요합니다. 시스템이 다운되면 고객의 접근이 차단되고 리소스가 갇혀 막대한 비용으로 쓸모없게 됩니다. 이러한 종류의 서비스 중단은 매출 손실, 전반적인 직원 생산성 저하, 기업 브랜드 손상으로 이어질 수 있습니다. 연구에 따르면 업계에 따라 예기치 않은 다운타임 1시간의 평균 비용은 시간당 10만 달러에서 50만 달러를 훨씬 넘는 것으로 나타났습니다.[1] [2]
예측 장애 분석(PFA) 시작하기
예측 장애 분석(PFA)은 대량의 과거 데이터를 평가하여 장애 발생 가능성에 대한 귀중한 인사이트를 제공할 수 있습니다. 칩셋, 회로 기판, 하드 드라이브, 납땜 연결은 모두 사용 수명이 유한합니다. 과거 장애 데이터의 추세는 향후 장애가 발생할 수 있는 시간 범위를 가리킬 수 있습니다.
대형 장비나 자동차 제조업체(및 그 고객)의 경우, PFA는 잠재적으로 자산 수명을 개선하여 향후 지출을 최대 5%까지 줄일 수 있습니다. 또한 PFA는 운영자와 기술자가 더 자유롭고 저렴한 시간에 유지보수를 예약하는 데 사용할 수 있어 최대 20%의 효율성과 비용 절감 효과를 창출할 수 있습니다[3].
수많은 요인이 PFA의 성능에 영향을 미칠 수 있습니다. 해당 시스템의 평균 워크로드, 사용된 기록 데이터의 범위, 관련된 머신 러닝(ML) 또는 딥 러닝(DL) 알고리즘에 따라 PFA의 정확도에 의문이 제기될 수 있습니다.
선형 및 다항식 회귀는 잔여 유효 수명(RUI)을 결정하는 데 자주 사용되며, 장단기 메모리(LSTM) 및 랜덤 포레스트 알고리즘은 다양한 성공률로 고장 예측을 개선하는 데 사용할 수 있습니다. [4] [5] [6]
PFA를 통해 실질적인 이점이 있는 것은 분명하지만 완벽한 것은 아닙니다. 동일한 수준의 서비스 가용성을 제공하고 자본 투자 가치를 보호하려면 원격 작업 계약을 통해 PFA를 사용하는 지원 프로그램을 보강하는 것이 현명합니다.
보험 정책으로서의 리모트 핸즈
PFA와 함께 리모트 핸즈를 사용하면 계획된 정전 및 예기치 않은 정전 모두에 이점이 있습니다.
계획된 중단을 미리 예약할 수 있으므로 리소스를 자유롭게 사용할 수 있고 가장 저렴한 시간에 할당할 수 있습니다. 원격 인력 제공업체는 규모의 경제도 누릴 수 있습니다: 충분한 리소스를 배치할 수 있으므로 자체 기술자를 고용, 교육, 관리하는 데 드는 비용을 크게 절감할 수 있습니다. (필요한 기술 세트에 따라 한 명의 전담 엔지니어에게 연간 6자리 수 이상의 비용이 들 수 있습니다).
계획되지 않은 정전이 발생하면 서비스 복구가 가장 중요한 문제입니다. 원격 인력 계약이 없는 예기치 않은 중단은 해결하는 데 더 오랜 시간이 걸립니다. 현장에서 문제를 해결하고 문제를 해결하기 위해 배치된 리소스는 먼저 검증, 보험 가입, 온보딩을 거친 후 배치되어야 합니다. 대규모 리소스를 보유한 원격 지원 제공업체는 이미 리소스를 검증하고 할당했으므로 응답 시간이 더 빨라집니다.
전략적 기술 투자
서비스의 성격에 따라 대규모 환경의 지속적인 중단은 수백만 달러의 비용을 초래할 수 있습니다. 원격 지원 서비스는 단독으로 계약하거나 PFA를 포함하는 광범위한 재해 복구 계획의 일부로 운영되며, 비용 항목으로 처리하거나 더 큰 소프트웨어 또는 서비스 구독의 일부로 자본화할 수도 있습니다.
운영 비용이 조금만 증가해도 장기간의 서비스 중단으로 인한 수백만 달러의 손실을 방지할 수 있습니다.
원격 인력 지원에 대한 투자를 정당화하기 위해 어떤 접근 방식을 사용해야 할까요? 기업 재무 지표는 회사마다 다르지만 몇 가지 예를 들어 설명할 수 있습니다.
사례 연구
북미 데이터센터의 3개 환경을 1년 동안 지원하는 25만 달러의 원격 인력 계약을 검토하고 있습니다. 예상 다운타임 비용은 시간당 $100,000입니다(좌초 또는 유휴 리소스, 매출 손실, 브랜드 영향 등 모두 포함). 마지막으로 하드웨어 고장으로 인해 중단이 발생했을 때 애플리케이션이 6시간 동안 다운되었습니다. 회사에 미친 순 영향은 60만 달러였습니다.
기업 재무팀은 투자가 10%의 장애물 비율(최소 허용 수익률 또는 MAAR이라고도 함)을 통과하지 못하면 IT 지출을 승인하지 않습니다.
원격 작업 계약의 예상되는 이점은 예기치 않은 장애 발생 시 평균 복구 시간(MTTR)을 단축하는 것입니다. 추정치에 따르면 MTTR을 크게 줄일 수 있는 것으로 나타났습니다. 이전 정전 시 MTTR을 50% 줄였다면 서비스를 3시간 더 빨리 복구하여 30만 달러를 절약할 수 있었을 것입니다.
기업 재무팀은 향후 예상치 못한 다운타임을 줄이기 위한 보험 정책으로 이 원격 작업 계약의 구매를 승인해야 하나요?
ROI는 간단한 공식을 사용해 계산합니다:
ROI = (순이익/투자 비용) * 100
이 경우 순이익은 30만 달러의 절감액에서 25만 달러의 계약 비용을 뺀 금액, 즉 5만 달러가 됩니다.
ROI = ($300,000-$250,000)/$250,000 * 100
50,000달러를 250,000달러로 나눈 값은 20%, 즉 금융권에서 요구하는 MARR의 두 배입니다.
(이 수익률은 단 한 번의 정전을 기준으로 측정한 것입니다. 한 해에 계획되지 않은 정전이 여러 번 발생할 경우 절감액은 훨씬 더 높아질 수 있습니다.)
기업 재무팀은 리모트 핸즈 계약에 대한 투자를 승인해야 합니다.
요약
인공지능은 장애 예측 분석 분야에서 큰 진전을 이루었으며, 앞으로 몇 달, 몇 년 동안 PFA의 효과는 더욱 높아질 것입니다.
한편, 투자 보호의 필요성은 여전히 남아 있습니다. 원격 인력 계약에 전략적으로 투자하면 계획되지 않은 가동 중단으로 인한 재정적 영향을 완화하는 동시에 계획된 가동 중단 기간의 유연성을 활용하는 데 도움이 될 수 있습니다.
참고
[1] https://medium.com/@brijesh_soni/why-random-forests-outperform-decision-trees-a-powerful-tool-for-complex-data-analysis-47f96d9062e7
[2] Yadav, D. K., Kaushik, A., & Yadav, N. (nd). 머신 러닝 및 딥 러닝 알고리즘을 사용한 기계 고장 예측. ScienceDirect. https://www.elsevier.com/locate/smse
[3] https://www.bakerhughes.com/bently-nevada/blog/unplanned-downtime-key-disruptor-industry
[4] https://medium.com/@jatin2707/machine-failure-prediction-a-comprehensive-guide-524726c3b1fd
[5] https://www.atlassian.com/incident-management/kpis/cost-of-downtime
[6] "예측적 유지보수: 딜로이트의 접근 방식 " https://www2.deloitte.com/content/dam/Deloitte/us/Documents/process-and-operations/us-predictive-maintenance.pdf
주제 원격 손, 머신러닝(ML), 인공지능(AI), 딥러닝(DL), 생산성, 데이터센터, 클라우드, 예측 장애 분석(PFA), 순환 신경망(RNN), 고성능 컴퓨팅(HPC), 기업 재무, 전략적 투자, 선형 회귀, 장단기 메모리(LSTM), 랜덤 포레스트, 포트폴리오 이론.