How to Scale Your Model
이 글은 TPU와 GPU 하드웨어에서 대규모 언어 모델(LLM)을 효율적으로 확장하는 방법을 체계적으로 설명하는 책의 소개입니다. 모델 병렬화 기법, 하드웨어 병목 현상, 연산 및 통신 비용 분석, Transformer 아키텍처의 세부 연산량 계산 등을 다루며, LLaMA 3 모델을 활용한 실습과 JAX 기반 프로파일링 방법도 포함합니다. AI 연구자와 엔지니어가 대규모 모델을 하드웨어 한계 내에서 최적화하고 강력한 확장성을 달성하는 데 실질적인 도움을 주는 내용을 담고 있습니다.
How To Scale Your Model
Training LLMs often feels like alchemy, but understanding and optimizing the performance of your models doesn't have to. This book aims to demystify the science of scaling language models: how TPUs (and GPUs) work and how they communicate with each other, how LLMs run on real hardware, and how to parallelize your models during training and inference so they run efficiently at massive scale. If you've ever wondered “how expensive should this LLM be to train” or “how much memory do I need to serve this model myself” or “what's an AllGather”, we hope this will be useful to you.





