Tracing tokens through Llama 3.1 8B inference on H100s

이 글은 Meta의 오픈소스 Llama 3.1 8B 모델을 H100 GPU에서 추론할 때 토큰이 거치는 과정을 상세히 설명한다. 모델 파일 구성, 토크나이저 작동 원리, 임베딩 조회, 그리고 32개 트랜스포머 레이어 내 Attention과 MLP 연산의 내부 동작을 단계별로 다룬다. 특히 BF16 형식의 가중치 저장, GPU 메모리 대역폭과 토큰 처리 속도, RMSNorm과 잔차 연결을 통한 안정성 확보 등 추론 효율과 정확성에 중요한 요소들을 기술한다. AI 개발자들이 LLM 추론의 내부 구조와 비용 구조를 이해하는 데 유용한 실무적 인사이트를 제공한다.

https://krithik.xyz/what-is-inference-actually

#llama3 #inference #h100 #transformer #tokenization

What Is Inference, Actually?

A walk through what happens between hitting enter and the answer finishing. Llama 3.1 8B on an H100, end to end. 8 inline visualizations.

Krithik Sai Sreenish

Мы уткнулись в потолок. Почему видеокарты перестали быстро расти — и что с этим делать

H100 стоит $30 000 и потребляет 700 Вт. RTX 5090 — $2 000 (де-факто больше) и 575 Вт. Прирост производительности между поколениями сжался с 80% до 15–20%. Разбираемся, почему это структурная проблема и что индустрия делает, чтобы с ней жить.

https://habr.com/ru/articles/1031370/

#GPU #NVIDIA #закон_Мура #HBM #AI_инфраструктура #чиплеты #архитектура_GPU #LLM #H100 #Blackwell

Мы уткнулись в потолок. Почему видеокарты перестали быстро расти — и что с этим делать

О смерти закона Мура применительно к GPU, стене памяти, которую никто не хочет замечать, и архитектурах, которые пытаются с этим жить. H100 стоит $30 000 и потребляет 700 Вт. RTX 5090 — $2 000...

Хабр

Nvidia: el compute IA cuesta más que los empleados

Un ejecutivo de Nvidia confirmó que el costo de compute IA supera el de los empleados. Datos reales de GPU, Big Tech y proyecciones para 2026.

https://blog.donweb.com/costo-compute-ia-vs-empleados-nvidia-2026/

#nvidia #infraestructuraia #costosgpu #bigtech #h100

Costo de compute IA vs empleados: qué dijo Nvidia

Un ejecutivo de Nvidia confirmó que el costo de compute IA supera el de los empleados. Datos reales de GPU, Big Tech y proyecciones para 2026.

Blog Donweb

khazzz1c (@Imkhazzz1c)

DeepSeek-V4-Flash를 AutoML에서 full-parameter fine-tuning으로 성공적으로 구현했다는 내용이다. BF16 정밀도와 H100 GPU 16노드 환경을 사용했다고 밝혀, 대규모 모델 학습·튜닝 인프라와 관련된 중요한 기술 공유로 볼 수 있다.

https://x.com/Imkhazzz1c/status/2047975337292890379

#deepseek #automl #finetuning #h100 #llm

khazzz1c (@Imkhazzz1c) on X

I have successfully implemented the full-parameter fine-tuning of DeepSeek-V4-Flash on AutoML @deepseek_ai @NVIDIAAI The specifics of the implementation are as follows: 1. Precision: BF16 2. Hardware: 16 nodes of H100 GPUs

X (formerly Twitter)

LLM 모델 크기 22% 줄인 Cloudflare, 품질은 그대로인 무손실 압축 원리

Cloudflare가 LLM 모델 크기를 22% 줄이면서 출력 품질은 그대로 유지하는 무손실 압축 시스템 Unweight를 개발했습니다. 핵심 원리와 결과를 소개합니다.

https://aisparkup.com/posts/11567

NVIDIA、AIスーパーコンピューター9台にGrace Hopperプラットフォームの採用が進んでいることを発表

NVIDIAと言えば昔はゲーミングGPU、今はAI向けGPUでその名を轟かせているが、GPUのみならず、CPUとGPUを組み合わせた高性能コンピューティング(HPC)向けのスーパーコンチップも製造している。この、NVIDIAの72コアのGraceプロセッサとH100 GPUで構成されるGrace […]

https://xenospectrum.com/nvidia-announces-nine-ai-supercomputers-are-adopting-the-grace-hopper-platform/

Teslaの新スーパーコンピューター「Cortex」が初披露、10万個のH100 GPUを搭載予定

Teslaの新たなAIスーパーコンピューター「Cortex」が、CEOのElon Musk氏によって公開された。テキサス州オースティンにあるTesla本社の南側に建設中のこの巨大な施設は、自動運転技術の開発とロボットタクシーの実現に向けた重要な役割を果たすと期待されている。しかし、その完成と本格稼働にはまだ時間がかかりそうだ。 Cortexの全貌と今後期待されるその能力 Tesla […]

https://xenospectrum.com/cortex-teslas-new-supercomputer-debuts-for-the-first-time/

The introduction of the Vera Rubin platform shifts the calculus for AI infrastructure planning. As the industry moves toward HBM4, understanding hardware refresh cycles becomes a core component of fleet optimization.

While H100 and Blackwell GPUs remain key workhorses, secondary-market demand for current-gen accelerators has reached a unique inflection point. This analysis explores the technical and financial variables influencing hardware transitions as the industry prepares for the Rubin wave.

https://www.buysellram.com/blog/the-post-gtc-gpu-market-shift-when-to-liquidate-h100-h200-and-blackwell-assets/

#NVIDIA #TechStrategy #DataCenter #GPU #GraphicsCard #GPULiquidation #H100 #H200

The Post-GTC GPU Market Shift: When to Liquidate H100, H200 and Blackwell Assets

Liquidate H100, H200, and Blackwell GPUs at peak market value. Prepare for NVIDIA’s Vera Rubin platform with our B2B strategy for maximizing capital velocity.

BuySellRam

The introduction of the Vera Rubin platform shifts the calculus for AI infrastructure planning. While H100 and Blackwell GPUs remain key workhorses, secondary-market demand for current-gen accelerators has reached a unique inflection point. This analysis explores the technical and financial variables influencing hardware transitions as the industry prepares for the Rubin wave.

https://www.buysellram.com/blog/the-post-gtc-gpu-market-shift-when-to-liquidate-h100-h200-and-blackwell-assets/

#NVIDIA #TechStrategy #DataCenter #GPU #GraphicsCard #GPULiquidation #H100 #H200 #technology

The Post-GTC GPU Market Shift: When to Liquidate H100, H200 and Blackwell Assets

Liquidate H100, H200, and Blackwell GPUs at peak market value. Prepare for NVIDIA’s Vera Rubin platform with our B2B strategy for maximizing capital velocity.

BuySellRam
🚀 #H100 va a por todas: busca comprar dos firmas de tesorería para superar los 3.500 $BTC en Europa. La carrera por acumular #Bitcoin en los balances corporativos no se detiene. ¿Estamos ante el nuevo estándar de reserva de valor?