cuTile C++ has been released! check it out! https://docs.nvidia.com/cuda/cuda-programming-guide/02-basics/writing-tile-kernels.html
cuTile C++ has been released! check it out! https://docs.nvidia.com/cuda/cuda-programming-guide/02-basics/writing-tile-kernels.html
Планирование движения для ровера на ходовой Ackerman'а
Проверяем, может ли GPU-планировщик MPPI-Generic работать без глобального планера. Самодельный симулятор, контроллер с приоритетом угловой скорости, сравнение с State Lattice и RPP vs MPPI, справился, но есть нюансы.
DeepSeek V4 Flash 전용 로컬 추론 엔진 DwarfStar 4 (ds4) 공개
DeepSeek V4 Flash 모델에 특화된 네이티브 추론 엔진으로, 100만 토큰 컨텍스트와 압축된 KV 캐시를 로컬 환경에서 지원한다.
Lupine: A GPU-over-IP Bridge
Lupine은 GPU가 없는 CPU 전용 머신에서 원격 GPU를 IP를 통해 연결해 사용할 수 있게 하는 GPU-over-IP 브리지입니다. Docker 컨테이너 형태로 서버(원격 GPU 머신)와 클라이언트(CPU 머신)를 실행하며, 다중 서버의 GPU도 하나의 로컬 장치처럼 사용할 수 있습니다. CUDA 13.1 및 Ubuntu 24.04 환경을 기본 지원하며, PyTorch 클라이언트 이미지도 제공해 원격 GPU에서 딥러닝 학습을 수행할 수 있습니다. 현재 크로스 서버 간 디바이스 간 복사는 미지원이나, 동일 서버 내에서는 핸들 소유권 기반 라우팅이 가능합니다. 개발자는 로컬 개발용 빌드 및 코드 생성 도구도 활용할 수 있습니다.
NVIDIA #CUDA (Compute Unified Device Architecture) is a proprietary parallel computing platform and API that allows software developers to use NVIDIA GPUs for general-purpose processing rather than just graphics.
It has become the foundational infrastructure driving modern deep learning, scientific simulations, and agentic AI systems.
AustrianMyers (@AustrianMyers)
CUDA 검사 단계에서 RTX Pro 4000을 인식하지 못해 런처가 중단되고, 구형 RTX A4000에서는 동작하지만 이미지에 세로 줄 아티팩트가 발생한다고 한다. NVIDIA 드라이버·CUDA 호환성 또는 렌더링/메모리 문제를 의심할 수 있는 실사용 버그 제보다.
COMPLEXITIES OF AI HARDWARE UNPACKED AMIDST GROWING COMMUNITY EFFORTS
AI engineers learn about GPU, CUDA, and PyTorch optimization from a new book and meetups in Washington D.C. and Munich. Costs may change.
#AIPerformance, #GPUOptimization, #CUDA, #PyTorch, #AIHardware
https://newsletter.tf/ai-hardware-performance-book-meetups-tips/
A new book and meetups in Washington D.C. and Munich are helping AI engineers understand complex hardware like GPUs and CUDA. This knowledge can help lower costs for AI development.
#AIPerformance, #GPUOptimization, #CUDA, #PyTorch, #AIHardware
https://newsletter.tf/ai-hardware-performance-book-meetups-tips/
يقدم إصدار PyTorch 2.12 تحسينات برمجية هامة، حيث يسرع عمليات تفكيك القيم الذاتية على منصة CUDA بمعدل يصل إلى مئة ضعف بفضل تحديث الواجهة الخلفية. كما يوفر الإصدار واجهة برمجية جديدة تتيح التقاط الرسوم البيانية وتشغيلها بشكل موحد عبر بيئات الحوسبة المختلفة. علاوة على ذلك، يدعم النظام الجديد تنسيقات تكميم متطورة تسمح بتصدير نماذج الذكاء الاصطناعي المضغوطة بشكل كبير، مما يساهم في تسريع الأداء وتسهيل عمليات التطوير البرمجي.