PyTorch DevLog

PyTorch DevLog에서는 torch.compile을 활용해 TorchTitan RL에서 6배 빠른 통합 강화학습 훈련을 달성한 사례를 소개했습니다. 또한 torch.compile 내에서 그래프 중단 없이 텐서 값을 출력하고 검사할 수 있는 디버깅 툴킷과, 캐시 충돌 문제를 해결하는 isolate_recompiles 기능도 공개했습니다. 동적 형태(dynamic shapes) 관련 성능 최적화와 unbacked shapes의 중요성 및 향후 발전 방향도 상세히 다루고 있습니다. 이 글들은 PyTorch의 컴파일러, 디버깅, 동적 형태 처리 등 AI 모델 학습 및 추론 최적화에 직접 적용 가능한 핵심 기술 내용을 담고 있습니다.

https://docs.pytorch.org/devlogs/

#pytorch #torchcompile #reinforcementlearning #dynamicshapes #debugging

PyTorch DevLog

clem (@ClementDelangue)

Hugging Face Hub에 'Kernels' 기능을 도입했다는 발표입니다. GPU 커널을 모델처럼 쉽게 배포할 수 있으며, GPU·PyTorch·OS에 맞게 사전 컴파일되고 torch.compile 호환 및 1.7~2.5배 성능 향상을 제공합니다.

https://x.com/ClementDelangue/status/2044053580504584349

#huggingface #gpu #pytorch #torchcompile #kernels

clem 🤗 (@ClementDelangue) on X

Introducing Kernels on the Hugging Face Hub ✨ What if shipping a GPU kernel was as easy as pushing a model? - Pre-compiled for your exact GPU, PyTorch & OS - Multiple kernel versions coexist in one process - torch.compile compatible - 1.7x–2.5x speedups over PyTorch baselines

X (formerly Twitter)

So sánh thời gian khởi động torch.compile: SGLang vs vLLM

Người dùng báo cáo sự khác biệt lớn khi chạy Gemma 3 12B:
- vLLM (mặc định compile): ~1 phút.
- SGLang (không compile): ~1 phút 30 giây.
- SGLang (có compile, bs 1-16): ~6 phút.

Dù SGLang cho hiệu suất tăng 5-15% ở batch size thấp, chi phí khởi động lại quá cao. Nguyên nhân có thể do vLLM dùng "piecewise compilation" nhanh hơn, trong khi SGLang gắn chặt compile với CUDA graph toàn phần.

#AI #MachineLearning #SGLang #vLLM #TorchCompile

Würstchen - Schnelle Diffusion jetzt für die Bildgenerierung - KiNews24.de

Würstchen - Schnelle Diffusion: Erfahren Sie mehr über Würstchen, das revolutionäre Diffusionsmodell für schnelle und kosteneffiziente Bildgenerierung. Hohe Komprimierungsraten und optimierte Techniken machen es zur ersten Wahl in der KI-Entwicklung.

KI NEWS24