Tracing tokens through Llama 3.1 8B inference on H100s
이 글은 Meta의 오픈소스 Llama 3.1 8B 모델을 H100 GPU에서 추론할 때 토큰이 거치는 과정을 상세히 설명한다. 모델 파일 구성, 토크나이저 작동 원리, 임베딩 조회, 그리고 32개 트랜스포머 레이어 내 Attention과 MLP 연산의 내부 동작을 단계별로 다룬다. 특히 BF16 형식의 가중치 저장, GPU 메모리 대역폭과 토큰 처리 속도, RMSNorm과 잔차 연결을 통한 안정성 확보 등 추론 효율과 정확성에 중요한 요소들을 기술한다. AI 개발자들이 LLM 추론의 내부 구조와 비용 구조를 이해하는 데 유용한 실무적 인사이트를 제공한다.








