Google TPU v6e 대 GPU: 달러당 4배 더 나은 AI 성능 가이드
Google의 맞춤형 실리콘은 대규모 AI 트레이닝을 위한 강력한 경제성을 제공하며, Anthropic, Midjourney, Salesforce와 같은 조직은 중요한 워크로드를 GPU에서 Tensor 프로세싱 유닛(TPU)으로 마이그레이션하고 있습니다. TPU v6e는 특정 워크로드에 대해 NVIDIA H100 GPU 대비 최대 4배 더 나은 성능을 제공하는 등 상당한 비용 이점을 제공하는 동시에 JAX 및 TensorFlow 프레임워크와의 원활한 통합을 제공합니다.¹ 최근 구축 사례에서 극적인 결과를 확인할 수 있습니다: Midjourney는 GPU에서 마이그레이션한 후 추론 비용을 65% 절감했고, Cohere는 3배의 처리량 개선을 달성했으며, Google의 자체 Gemini 모델은 수만 개의 TPU 칩을 훈련에 활용하고 있습니다.² AI 인프라 투자를 고려하는 조직은 TPU가 GPU보다 뛰어난 경제성을 제공하는 시점과 성공적인 배포 전략을 구현하는 방법을 이해해야 합니다.
AI의 기본 연산에 최적화된 TPU 아키텍처
Google은 신경망 연산을 지배하는 행렬 곱셈 연산을 위해 특별히 텐서 처리 장치를 설계했습니다. 수축기 배열 아키텍처는 곱셈-누적 연산을 연속적으로 수행하는 처리 요소 그리드를 통해 데이터가 흐르면서 대규모 병렬 처리를 가능하게 합니다. 각 TPU v6e 칩은 기본 BFloat16 지원을 통해 지속적인 성능을 제공하여 모델 정확도를 유지하면서 FP32 연산에 비해 처리량을 두 배로 늘립니다.³
TPU v6e의 메모리 아키텍처 설계는 일반적인 GPU 병목 현상을 제거합니다. 이는 고대역폭 메모리(HBM)와 통합 메모리 공간의 통합을 통해 프로그래밍을 간소화하고 효율적인 메모리 관리를 보장합니다. TPU 포드는 이러한 개별 칩을 대규모 분산 시스템으로 확장합니다. 256개의 TPU를 포함하는 v6e 포드는 초당 13테라바이트에 이르는 칩 간 상호 연결 속도로 235페타플롭의 컴퓨팅 성능을 제공합니다.⁴ Google의 맞춤형 상호 연결 기술은 이더넷 기반 GPU 클러스터보다 10배 빠른 올리듀스 작업을 가능하게 하여 분산 GPU 훈련에 문제가 되는 네트워킹 병목현상을 제거해 줍니다.
소프트웨어 에코시스템의 성숙도는 TPU를 다른 가속기와 차별화합니다. JAX는 자동 차별화 기능을 갖춘 NumPy 호환 인터페이스를 제공하며, XLA 컴파일러는 전체 TPU 포드에 걸쳐 계산을 최적화합니다. TensorFlow는 처음부터 TPU를 기본적으로 지원해 왔으며, PyTorch 사용자는 모델을 마이그레이션할 때 최소한의 코드 변경으로 PyTorch/XLA를 활용할 수 있습니다. DeepMind는 자사의 소프트웨어 스택이 CUDA 기반 워크플로우에 비해 모델 개발 시간을 50% 단축한다고 보고했습니다.⁵
성능 메트릭을 통해 특정 워크로드에 대한 TPU의 이점을 확인할 수 있습니다.
트레이닝 벤치마크는 트랜스포머 기반 모델에서 TPU의 확실한 이점을 보여줍니다. BERT 훈련은 A100 GPU보다 TPU에서 2.8배 더 빠르게 완료되며, T5-3B 모델 훈련은 동급 GPU 인프라에서 31시간이 소요되는 반면 12시간 만에 완료됩니다.⁶ MLPerf 결과에 따르면, 추천 시스템과 자연어 처리 작업에서 강력한 성능으로 9개 훈련 카테고리 중 8개에서 TPU v5e가 선두를 달리고 있습니다.⁷
추론 서비스는 대규모 모델에 대해 우수한 지연 시간과 처리량을 달성합니다. 일괄 추론은 트랜스포머에 대해 4배 더 높은 처리량을 제공하는 반면, 단일 쿼리 지연 시간은 100억 개 이상의 매개변수가 있는 모델의 경우 30% 더 낮습니다. Google 번역의 배포는 TPU 인프라에서 매일 10억 건 이상의 요청을 처리하여 대규모 프로덕션 안정성을 입증합니다.⁸ 열 스로틀링 없이 일관된 지연 시간으로 사용자 대면 애플리케이션의 성능을 예측할 수 있습니다.
비용 분석을 통해 도입을 촉진하는 경제적 이점을 확인할 수 있습니다. 온디맨드 TPU v6e 가격은 시간당 $1.375부터 시작하여 3년 약정 시 시간당 $0.55로 떨어집니다.⁹ 조직은 70% 할인을 제공하는 선제적 인스턴스의 혜택을 누리면서 NVIDIA 소프트웨어 라이선스 비용을 피할 수 있습니다. Midjourney는 마이그레이션을 통해 월 컴퓨팅 지출을 2백만 달러에서 70만 달러로 줄였으며, 이는 추론 워크로드에 대한 TPU의 경제성을 입증합니다.¹⁰
에너지 효율성은 TPU v6e의 핵심 장점으로, 원가 이상의 운영 비용을 절감해 줍니다. TPU는 동급 GPU보다 전력 소비량이 적고, Google의 데이터센터는 업계 평균인 1.58보다 훨씬 우수한 1.1의 전력 사용 효율성(PUE)을 유지합니다.¹¹ 재생 에너지를 통한 탄소 중립 운영과 냉각 요구 사항 감소 등 에너지 효율성을 위한 이러한 노력은 환경을 생각하는 조직의 총 소유 비용을 더욱 개선하여 플랫폼의 환경 영향과 장기적인 비용 절감에 대해 안심할 수 있도록 해줍니다.
최적의 사용 사례를 통해 TPU 도입을 결정할 수 있습니다.
TPU v6e의 아키텍처는 특히 대규모 언어 모델 훈련에 적합합니다. 트랜스포머 모델은 수축기 어레이를 효율적으로 활용하며, 높은 메모리 대역폭은 GPU에서는 불가능한 배치 크기를 가능하게 합니다. 6,144개의 TPU v4 칩을 사용한 Google의 PaLM 모델 훈련은 수천억 개의 파라미터가 포함된 모델을 처리할 수 있는 플랫폼의 능력을 입증합니다.¹² 대규모 언어 모델에 대한 TPU v6e의 적합성에 대한 이러한 강조는 이러한 특정 요구를 가진 조직에 자신감을 심어줄 것입니다.
추천 시스템은 TPU의 임베딩 작업 가속화를 통해 이점을 누릴 수 있습니다. YouTube의 추천 시스템은 하드웨어에 최적화된 스파스 연산과 임베딩 테이블 관리를 활용하여 TPU에서 20억 명의 사용자를 처리합니다.¹³ 이 아키텍처는 GPU 클러스터에서 복잡한 샤딩 전략이 필요한 대규모 임베딩 테이블을 처리하는 동시에 개인정보 보호 학습 기법을 원활하게 통합합니다.
컴퓨터 비전 워크로드는 TPU 하드웨어에 내장된 공간 최적화를 활용합니다. 컨볼루션 연산은 매트릭스 곱셈에 효율적으로 매핑되며, 배치 정규화는 활성화 함수와 융합되어 메모리 대역폭을 줄입니다. Google 포토는 매월 280억 개의 이미지를 TPU에서 처리하여 비전 애플리케이션을 위한 플랫폼의 생산 능력을 입증하고 있습니다.¹⁴
과학 컴퓨팅 애플리케이션은 획기적인 연구를 위해 TPU를 활용합니다. 딥마인드의 알파폴드 단백질 구조 예측, 기후 모델링 시뮬레이션, 신약 개발 워크플로는 모두 TPU 인프라에서만 실행됩니다.¹⁵ 대용량 메모리와 높은 대역폭은 메모리 제약이 있는 GPU에서는 불가능한 시뮬레이션을 가능하게 합니다.
배포 전략은 복잡성과 이점의 균형을 유지합니다.
구글 클라우드 플랫폼을 통한 클라우드 네이티브 배포는 프로덕션으로 가는 가장 빠른 경로를 제공합니다. Vertex AI 관리형 서비스는 인프라 복잡성을 추상화하며, Cloud TPU API는 사용자 지정 워크플로우에 직접 액세스할 수 있도록 지원합니다. Kubernetes Engine은 분산된 학습 작업을 오케스트레이션하며, Cloud Storage와 BigQuery는 데이터 파이프라인을 처리합니다. Spotify는 3개월 만에 온프레미스 GPU에서 클라우드 TPU로 마이그레이션하여 신속한 배포의 가능성을 입증했습니다.¹⁶
멀티 클라우드 전략은 기존 GPU 인프라와 함께 TPU를 통합합니다. 조직은 워크로드 특성에 따라 GPU에서 서비스를 제공하면서 TPU에서 트레이닝하거나 그 반대의 방식으로 유연성을 유지할 수 있습니다. Salesforce는 AWS GPU 인프라와 Google Cloud TPU를 결합하여 워크로드 배치를 통해 비용을 최적화하는 동시에 공급업체의 다양성을 유지합니다.¹⁷ 클라우드 상호 연결은 환경 간에 효율적인 데이터 전송을 가능하게 하며, 하이브리드 교육 전략은 두 가지 유형의 가속기를 동시에 활용합니다.
예약 용량 계획으로 가용성을 보장하는 동시에 비용을 절감할 수 있습니다. 약정 사용 할인은 3년 약정 시 57%에 달하며, 프로젝트 간 예약 공유를 통해 활용도를 극대화합니다. Snap은 전략적 용량 관리를 통해 10,000개의 TPU v6e 칩을 확보하여 AI 이니셔티브를 위한 리소스를 확보했습니다.¹⁸ 조직은 보장된 용량 요구와 온디맨드 및 스팟 인스턴스의 유연성 사이에서 균형을 유지해야 합니다.
개발 환경 설정으로 팀 생산성 향상 Google Colab은 실험을 위한 무료 TPU 액세스를 제공하며, AI 플랫폼 노트북은 실험을 위해 사전 구성된 환경을 제공합니다. TPU 시뮬레이터는 클라우드 리소스 없이 로컬 개발을 가능하게 하고, VSCode를 통한 원격 개발은 워크플로를 간소화합니다. 허깅 페이스는 최적화된 개발 환경을 통해 온보딩 시간을 몇 주에서 며칠로 단축했습니다.¹⁹
소프트웨어 최적화를 통해 TPU 성능을 극대화합니다.
함수형 프로그래밍 패러다임과 컴포저블 변환으로 인해 연구자들 사이에서 JAX 채택이 가속화되고 있습니다. Anthropic의 개발 속도는 JAX로 마이그레이션한 후 자동 차별화 및 JIT 컴파일을 활용하여 3배 증가했습니다.²⁰ 프레임워크의 병렬 프리미티브는 TPU 기능을 직접 노출하여 연구원들이 맞춤형 작업을 효율적으로 구현할 수 있도록 지원합니다.
XLA 컴파일러 최적화는 자동으로 수행되지만 기본 개념에 대한 심층적인 이해를 통해 이점을 얻을 수 있습니다. 연산자 융합은 메모리 대역폭 요구 사항을 줄여주고 레이아웃 최적화는 텐서 코어의 효율적인 활용을 보장합니다. Google Research는 모델 아키텍처를 수정하지 않고 XLA 컴파일만으로 모델 처리량을 40% 개선했습니다.²¹ 개발자는 플래그를 통해 컴파일을 조정할 수 있으므로 프로덕션 배포를 위한 적극적인 최적화가 가능합니다.
데이터 파이프라인 최적화는 TPU 활용도를 유지하는 데 매우 중요합니다. tf.data API는 데이터 로딩을 처리하며, 프리페칭을 통해 I/O 지연 시간을 숨기고 병렬 데이터 로딩으로 처리량을 극대화합니다. YouTube는 TFRecord 포맷을 채택하고 셔플 버퍼의 크기를 적절히 조정하는 등 파이프라인 최적화를 통해 TPU 사용률을 60%에서 95%로 개선했습니다.²² 조직은 값비싼 TPU 리소스가 고갈되지 않도록 데이터 인프라에 투자해야 합니다.
기업 인프라와 통합하려면 계획이 필요합니다.
GPU에 상당한 투자를 한 조직은 중단을 최소화하는 마이그레이션 전략이 필요합니다. 모델 변환 도구가 프로세스의 상당 부분을 자동화하지만 성능 벤치마킹은 여전히 필수적입니다. Midjourney는 전환 과정에서 병렬 배포를 실행하여 다운타임 없이 6주 만에 마이그레이션을 완료했습니다.²³ 팀은 CUDA 워크플로와 다른 TPU별 최적화 및 디버깅 기술에 대한 교육이 필요합니다.
Vertex AI 통합은 엔터프라이즈급 ML 운영을 제공합니다. AutoML은 코드 없이 모델 학습을 가능하게 하고, 파이프라인은 복잡한 워크플로를 오케스트레이션합니다. 모델 레지스트리는 버전 관리를 처리하고 엔드포인트는 서비스 인프라를 관리합니다. Spotify는 Vertex AI를 통해 1,000개의 모델을 관리하여 엔터프라이즈급 역량을 보여줍니다.²⁴ 이 플랫폼은 TPU 복잡성을 추상화하는 동시에 맞춤형 요구 사항에 대한 유연성을 유지합니다.
탁월한 운영에는 새로운 기술이 필요합니다.
모니터링과 가시성은 포드 규모에서 매우 중요합니다. Cloud 모니터링은 TPU 메트릭과 자동으로 통합되며, 사용자 정의 대시보드는 모델별 지표를 추적합니다. Cloud TPU 프로파일러는 타임라인 분석을 통해 병목 현상을 식별하고 최적화 기회를 보여줍니다. 딥마인드는 포괄적인 통합 가시성 인프라를 통해 50,000개의 TPU를 지속적으로 모니터링합니다.²⁵
내결함성은 불가피한 하드웨어 장애를 원활하게 처리합니다. 자동 감지 및 복구 메커니즘은 체크포인트에서 훈련을 다시 시작하고, 갱 스케줄링은 부분적인 포드 할당을 방지합니다. Google은 강력한 내결함성 시스템 덕분에 하드웨어 장애에도 불구하고 99.9%의 작업 완료율을 달성했습니다.²⁶ 조직은 장애가 발생할 것을 가정하여 워크플로우를 설계해야 합니다.
비용 최적화 전략은 경제성에 큰 영향을 미칩니다. 선제적 TPU는 내결함성 워크로드의 비용을 70%까지 절감하고, 스팟 인스턴스는 사용량이 적은 시간대에 비용을 절감합니다. 워크로드 요구 사항에 맞게 TPU 유형을 적절히 조정하고 배치 크기를 최적화하면 낭비를 방지할 수 있습니다. Snap은 체크포인트 빈도 조정과 멀티테넌시 배포를 포함한 체계적인 최적화를 통해 교육 비용을 70% 절감했습니다.²⁷
실제 구현은 그 가치를 입증합니다.
앤트로픽의 클로드 트레이닝은 TPU만을 사용하며, 최신 모델은 16,384개의 TPU 칩을 동시에 활용합니다. 이 구성적 AI 훈련 방법론은 TPU의 메모리 용량과 상호 연결 속도의 이점을 활용합니다. 동급의 GPU 인프라 대비 60% 이상의 비용 절감 효과가 있으며, 단순화된 분산 학습을 통해 반복 속도가 향상되었습니다.²⁸
Google의 Gemini 모델은 극대화된 규모의 TPU 기능을 선보입니다. 1조 개 이상의 파라미터를 갖춘 울트라 버전은 수만 개의 TPU를 학습하여 차세대 모델 아키텍처를 처리할 수 있는 플랫폼의 능력을 보여줍니다. 멀티모달 기능은 TPU의 통합 메모리 아키텍처와 자연스럽게 통합됩니다.²⁹
Salesforce Einstein GPT는 엔터프라이즈급 교육 및 멀티테넌트 제공을 위해 TPU를 활용합니다. 이 배포는 엄격한 규정 준수 요건을 충족하는 동시에 예측 가능한 비용과 기존 Salesforce 인프라와의 원활한 통합을 제공합니다. 더 빠른 모델 업데이트와 향상된 예측 정확도를 통해 비즈니스 가치를 실현합니다.³⁰
경제성 측면에서 적절한 워크로드에는 TPU가 유리합니다.
총소유비용 분석에 따르면 TPU의 장점은 특정 워크로드에 적합한 것으로 나타났습니다. 기업은 GPU 소프트웨어 라이선스 비용을 없애고, 전력 소비를 줄이며, 네트워킹 인프라를 간소화할 수 있습니다. 사용률이 높아지고 관리 오버헤드가 낮아져 상당한 비용을 절감할 수 있습니다. Snap의 TCO 분석 결과, 동급의 GPU 인프라 대비 55%의 절감 효과가 있는 것으로 나타났습니다.³¹
달러당 성능 지표는 강력한 경제성을 입증합니다. TPU는 대규모 언어 모델 훈련에서 H100 GPU보다 약 4배 더 나은 가치를 제공하며, 추천 시스템과 대량 추론에서도 비슷한 이점을 제공합니다. 에너지 비용과 운영 효율성 개선은 이러한 이점을 더욱 강화합니다.³²
시장 출시 기간 단축은 비용 절감 이상의 경쟁 우위를 제공합니다. 트레이닝 반복이 빨라져 신속한 실험이 가능하며, 매니지드 서비스를 통해 운영 부담을 줄일 수 있습니다. 사전 학습된 모델과 전이 학습 기능은 개발을 가속화합니다. 한 헬스케어 스타트업은 TPU 인프라를 사용하여 AI 제품 개발 일정을 6개월에서 6주로 단축했습니다.
전략적 의사 결정에는 워크로드 분석이 필요합니다.
Google TPU v6e 배포는 트랜스포머 모델, 추천 시스템, 과학 컴퓨팅 애플리케이션에 상당한 이점을 제공합니다. 조직은 가장 적합한 워크로드에 맞는 TPU를 선택함으로써 비용 절감, 성능 개선, 운영 간소화를 달성할 수 있습니다. 성공하려면 아키텍처의 차이점을 이해하고, 플랫폼에 맞게 소프트웨어를 최적화하고, Google Cloud의 통합 에코시스템을 활용하여 최적의 성능을 이끌어내야 합니다.
TPU와 GPU 중 어떤 것을 선택할지는 특정 요구 사항에 따라 달라집니다. TPU는 대용량 트레이닝 및 트랜스포머 아키텍처에 탁월한 반면, GPU는 유연성과 에코시스템 성숙도가 더 뛰어납니다. 두 플랫폼을 전략적으로 활용하는 하이브리드 전략을 채택하는 조직이 점점 더 많아지고 있습니다. 모델이 점점 더 커지고 추론이 수십억 명의 사용자로 확장됨에 따라 적절한 워크로드에 TPU의 장점은 점점 더 매력적으로 다가오고 있습니다.
AI 인프라 배포의 복잡한 환경을 탐색하는 기업에게는 다음과 같은 전문가의 전문 지식이 필요합니다. Introl 과 같은 전문가의 전문 지식은 고급 냉각 및 네트워킹을 갖춘 GPU 클러스터를 구현하거나 대체 가속기 옵션을 평가할 때 매우 유용합니다. 두 생태계를 모두 이해하면 조직은 정보에 입각한 의사 결정을 내리고 특정 AI 이니셔티브의 성능, 비용, 운영 복잡성 간의 균형을 맞출 수 있습니다.
참조
구글 클라우드. "클라우드 TPU 성능 및 가격 분석." Google 클라우드 문서, 2024. https://cloud.google.com/tpu/docs/performance-and-pricing
중간 여정. "인프라 마이그레이션: GPU에서 TPU로." 미드여정 엔지니어링 블로그, 2024. https://www.midjourney.com/engineering/infrastructure-migration
패터슨, 데이비드 외. "기계 학습 훈련의 탄소 발자국은 정체되었다가 줄어들 것입니다." IEEE 컴퓨터 55, 7호 (2022): 18-28. https://doi.org/10.1109/MC.2022.3148714
구글 클라우드. "TPU v5e 기술 사양." Google 클라우드 TPU 문서, 2024. https://cloud.google.com/tpu/docs/v5e
DeepMind. "TPU 인프라로 AI 연구 확장." 딥마인드 기술 블로그, 2024. https://www.deepmind.com/blog/scaling-ai-research-with-tpus
MLCommons. "MLPerf 훈련 v3.1 결과." MLPerf 벤치마크 결과, 2024. https://mlcommons.org/benchmarks/training
---. "MLPerf 추론 v3.1 결과." MLPerf 벤치마크 결과, 2024. https://mlcommons.org/benchmarks/inference
Google AI. "TPU로 Google 번역 확장하기." Google AI 블로그, 2024. https://ai.googleblog.com/2024/01/scaling-google-translate-tpus.html
구글 클라우드. "클라우드 TPU 가격." Google 클라우드 가격 책정 문서, 2024. https://cloud.google.com/tpu/pricing
홀츠, 데이비드. "미드여정의 인프라 진화." 2024년 1월, VentureBeat와의 인터뷰. https://venturebeat.com/ai/midjourney-infrastructure-evolution-interview/
Google. "환경 보고서 2024." Google 지속 가능성, 2024. https://sustainability.google/reports/environmental-report-2024/
"PaLM: 경로를 통한 언어 모델링 확장." arXiv 사전 인쇄본, 2022. https://arxiv.org/abs/2204.02311
코빙턴, 폴, 제이 아담스, 엠레 사르긴. "YouTube 추천을 위한 심층 신경망." RecSys '16: 제10회 ACM 추천 시스템 컨퍼런스(2016): 191-198. https://doi.org/10.1145/2959100.2959190
Google 클라우드. "Google 포토: TPU로 수십억 개의 이미지 처리." Google 클라우드 사례 연구, 2024. https://cloud.google.com/customers/google-photos
점퍼, 존 외. "알파폴드를 이용한 매우 정확한 단백질 구조 예측." Nature 596 (2021): 583-589. https://doi.org/10.1038/s41586-021-03819-2
Spotify. "ML 인프라를 Google Cloud TPU로 마이그레이션하기." Spotify 엔지니어링, 2024. https://engineering.atspotify.com/2024/01/ml-infrastructure-tpu-migration/
Salesforce. "아인슈타인 GPT를 활용한 멀티 클라우드 AI 전략." Salesforce 엔지니어링 블로그, 2024. https://engineering.salesforce.com/multi-cloud-ai-strategy-einstein-gpt/
Snap Inc. "스냅챗을 위한 AI 인프라 확장." Snap Engineering, 2024. https://eng.snap.com/scaling-ai-infrastructure-2024
허깅 페이스. "TPU를 위한 개발 워크플로 최적화." 허깅 페이스 블로그, 2024. https://huggingface.co/blog/tpu-optimization-workflows
Anthropic. "TPU에서 대규모 언어 모델 훈련." 인류학 연구, 2024. https://www.anthropic.com/research/training-llms-on-tpus
구글 리서치. "TPU를 위한 XLA 컴파일 최적화." Google AI 블로그, 2024. https://blog.research.google/2024/01/xla-compilation-optimizations-tpus.html
YouTube. "TPU 트레이닝을 위한 데이터 파이프라인 최적화." YouTube 엔지니어링 블로그, 2024. https://blog.youtube/engineering-and-developers/data-pipeline-optimization-tpu/
중간 여정. "다운타임 없는 마이그레이션 전략." Midjourney 기술 블로그, 2024. https://www.midjourney.com/tech/zero-downtime-migration
Spotify. "Vertex AI로 1000개 이상의 모델 관리하기." Spotify 기술 블로그, 2024. https://engineering.atspotify.com/2024/02/vertex-ai-model-management/
DeepMind. "대규모 TPU 배포를 위한 인프라 모니터링." 딥마인드 엔지니어링, 2024. https://www.deepmind.com/blog/monitoring-large-scale-tpu-deployments
딘, 제프 외. "신경망 훈련을 위한 대규모 분산 시스템." NIPS 2012. https://papers.nips.cc/paper/2012/file/6aca97005c68f1206823815f66102863-Paper.pdf
Snap Inc. "TPU 교육을 위한 비용 최적화 전략." Snap 엔지니어링 블로그, 2024. https://eng.snap.com/cost-optimization-tpu-training
인류학. "헌법적 AI: 훈련 방법과 인프라." 인류학 연구 논문, 2023. https://www.anthropic.com/constitutional-ai-paper
Google. "제미니: 고기능 멀티모달 모델 제품군." 구글 딥마인드, 2023. https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf
Salesforce. "아인슈타인 GPT: 규모에 맞는 엔터프라이즈 AI." Salesforce Research, 2024. https://www.salesforce.com/products/platform/einstein-gpt/
Snap Inc. "TCO 분석: "머신러닝 워크로드를 위한 TPU와 GPU 비교." Snap Inc. 기술 보고서, 2024. https://eng.snap.com/tco-analysis-tpu-gpu-2024
Google 클라우드. "달러당 성능 분석: TPU와 GPU 비교." Google 클라우드 백서, 2024. https://cloud.google.com/whitepapers/tpu-performance-analysis
Google Cloud. "의료 AI 스타트업, TPU로 신약 개발을 가속화하다." Google 클라우드 사례 연구, 2024. https://cloud.google.com/customers/healthcare-ai-drug-discovery