TurboQuant model weight compression now graces #Llamacpp, but only if you speak fluent Metal! 🏋️‍♂️ Meanwhile, everyone else waits for TheTom to bless us with a #CUDA port, assuming he ever emerges from the GitHub labyrinth of Pull Request 45. How many engineers does it take to compress a llama? 🤔
https://github.com/TheTom/llama-cpp-turboquant/pull/45 #TurboQuant #Metal #PullRequest #HackerNews #ngated
feat: TQ4_1S weight compression (Metal only, needs CUDA port) by TheTom · Pull Request #45 · TheTom/llama-cpp-turboquant

Summary TQ3_1S (3-bit, 4.0 BPW) and TQ4_1S (4-bit, 5.0 BPW) weight quantization using WHT rotation + Lloyd-Max centroids V2.1 fused Metal kernel: zero threadgroup memory, cooperative SIMD rotation...

GitHub

[Перевод] Ускоряем игру «Жизнь» с помощью CUDA / Triton

Давайте рассмотрим реализацию конвеевской игры «Жизнь» при помощи графической карты. Я хочу поэкспериментировать с разными библиотеками и методиками, чтобы понять, как обеспечить наилучшую производительность. Начнём мы с простого и постепенно будем повышать сложность. Игра «Жизнь» — это простой клеточный автомат, поэтому она должна хорошо поддаваться GPU-ускорению. Правила просты: каждая ячейка в двухмерной сетке или жива, или мертва. На каждом шаге мы подсчитываем живых соседей ячейки (включая диагонали). Если ячейка жива, она остаётся живой, если живы два или три её соседа. В противном случае она умирает. Если клетка мертва, она оживает, если живы ровно три соседа. Из этих простых правил возникает потрясающий объём сложности, о котором написаны подробные статьи. Для простоты я буду рассматривать только сети N×N и пропущу вычисления на краях. Всё будет работать на Nvidia A40, а бенчмарк производительности я буду проводить при N=2 16 . Пока мы будем хранить каждую ячейку в виде 1 байта, поэтому весь массив займёт 4 ГБ. Весь код выложен в репозитории GitHub .

https://habr.com/ru/articles/1018126/

#cuda #triton #игра_жизнь

Ускоряем игру «Жизнь» с помощью CUDA / Triton

Давайте рассмотрим реализацию конвеевской игры «Жизнь»  при помощи графической карты. Я хочу поэкспериментировать с разными библиотеками и методиками, чтобы понять, как обеспечить наилучшую...

Хабр

CUDA configuration is eating your AI project's time and nobody's talking about it.

I sat down with #CIQ 's #DamenKnight to dig into why general-purpose Linux wasn't built for GPU workloads and what "validated" actually means.

https://podcast.itguyeric.com/20
#Linux #CUDA #AIInfrastructure #MLOps #GPU

От MNIST к Transformer. Часть 4. Gradient Descent. Обучаем нашу модель

Мы живем в эпоху, когда ИИ стал доступен каждому. Но за магией PyTorch скрывается колоссальная инженерная работа и сложные вычислительные процессы, которые для большинства остаются черным ящиком. Это четвертая статья из цикла От MNIST к Transformer , цель которого пошагово пройти путь от простого CUDA ядра до создания архитектуры Transformer - фундамента современных LLM моделей. Мы не будем использовать готовые высокоуровневые библиотеки. Мы будем разбирать, как все устроено под капотом, и пересобирать их ключевые механизмы своими руками на самом низком уровне. Только так можно по настоящему понять как работают LLM и что за этим стоит. В этой статье мы разберем как работает градиентный спуск, реализуем его и обучим нашу модель для распознования mnist датасета. Приготовьтесь, будет много кода на C++ и CUDA, работы с памятью и погружения в архитектуру GPU. И конечно же математика что за этим стоит. Поехали!

https://habr.com/ru/articles/1011922/

#cuda #c++ #ml

От MNIST к Transformer. Часть 4. Gradient Descent. Обучаем нашу модель

Мы живем в эпоху, когда ИИ стал доступен каждому. Но за магией  PyTorch  скрывается колоссальная инженерная работа и сложные вычислительные процессы, которые для большинства остаются черным...

Хабр

Keynote at IWOCL 2026: Paulius Velesko presents chipStar — compiling unmodified CUDA/HIP code into OpenCL & SPIR-V fat binaries that run on Intel, AMD, NVIDIA, ARM, and RISC-V hardware. No recompilation needed.

Join us at IWOCL 2026, May 6–8 in Heilbronn, Germany to hear more.

View the full program at: https://www.iwocl.org/iwocl-2026/conference-program/
#IWOCL2026 #OpenCL #SYCL #CUDA #HPC #HeterogeneousComputing #RISCV #CUDA

DRTriton: Large-Scale Synthetic Data Reinforcement Learning for Triton Kernel Generation

#Triton #CUDA #LLM

https://hgpu.org/?p=30706

DRTriton: Large-Scale Synthetic Data Reinforcement Learning for Triton Kernel Generation

Developing efficient CUDA kernels is a fundamental yet challenging task in the generative AI industry. Recent researches leverage Large Language Models (LLMs) to automatically convert PyTorch refer…

hgpu.org

AutoKernel: Autonomous GPU Kernel Optimization via Iterative Agent-Driven Search

#CUDA #Triton #Package

https://hgpu.org/?p=30703

AutoKernel: Autonomous GPU Kernel Optimization via Iterative Agent-Driven Search

Writing high-performance GPU kernels is among the most labor-intensive tasks in machine learning systems engineering. We present AutoKernel, an open-source framework that applies an autonomous agen…

hgpu.org

#ITByte:The #NVIDIA #CUDA-Q Platform for hybrid quantum-classical computers enables integration and programming of quantum processing units (QPUs), GPUs, and CPUs in one system.

CUDA-Q is built for performance, is open source, and provides high-level language to develop and run hybrid quantum-classical applications.

https://knowledgezone.co.in/posts/NVIDIA-CUDA-Q-695de5b55b18dcd7dc88d303

MobileKernelBench: Can LLMs Write Efficient Kernels for Mobile Devices?

#CUDA #LLM #CodeGeneration

https://hgpu.org/?p=30695

MobileKernelBench: Can LLMs Write Efficient Kernels for Mobile Devices?

Large language models (LLMs) have demonstrated remarkable capabilities in code generation, yet their potential for generating kernels specifically for mobile devices remains largely unexplored. In …

hgpu.org