[Перевод] Зачем нужна специализация варпов. Разбор сложных случаев

Апдейт: идеи, изложенные в этой статье, позволили сформулировать оптимальные стратегии warp-специализации, описанные в научной публикации, которую можно посмотреть здесь . Недавно я глубоко задумался о специализации варпов в контексте высокопроизводительных ядер для современных графических процессоров (GPU) на тензорных ядрах. Примеры таких процессоров — H100 и B200 от NVIDIA. Я стал полнее понимать, чего можно добиться при помощи специализации варпов, а также задался интересным вопросом: а нужна ли нам вообще специализация варпов (и вся та сложность, которую она с собой влечёт)? В итоге я пришёл к выводу, что, да, нуждаемся, но она не столь обязательна, как может показаться. В этом посте обсудим, в каких случаях без специализации варпов действительно не обойтись, а также я опишу, на каком пространстве компромиссов она зиждется, и какие границы этого пространства я вижу. Притом, что я обрисую некоторый контекст, касающийся графических процессоров, необходимый для обсуждения тем, которые мы взялись здесь рассмотреть, эту статью нельзя считать туториалом. Предполагается, что читатель имеет некоторый опыт работы с GPU и имеет опыт параллельного программирования.

https://habr.com/ru/articles/1020950/

#CUDA #nvidia #программирование #компиляторы #параллелизм #gpu #тензорный_процессор

Зачем нужна специализация варпов. Разбор сложных случаев

Апдейт: идеи, изложенные в этой статье, позволили сформулировать оптимальные стратегии warp-специализации, описанные в научной публикации, которую можно посмотреть  здесь . Недавно я глубоко...

Хабр

Official #Apple Metal support just landed to #TornadoVM + #CUDA graphs 🚀

https://github.com/beehive-lab/TornadoVM

Yahoo Finance | Wall Street's Most Consequential Company -- Whose Shares Have Gained 464,000% Since 1999 -- Turns 33 Today

Wall Street's Most Consequential Company -- Whose Shares Have Gained 464,000% Since 1999 -- Turns 33 Today

You may not realize it, but what's arguably become the most important publicly traded company of our generation was founded 33 years ago today. On April 5, 1993, Nvidia (NASDAQ: NVDA) was cofounded in Sunnyvale, CA, by Jensen Huang (the company's current CEO), Chris Malachowsky, and Curtis Priem.

Although Nvidia was best-known for its graphics processing units (GPUs) used in PC gaming for decades, it's the company's artificial intelligence (AI) contributions that have sent its shares up nearly 464,000%, including dividends paid, since its initial public offering in January 1999.

Read more: https://finance.yahoo.com/markets/stocks/articles/wall-streets-most-consequential-company-122600288.html

#nvidia #jensenhuang #nasdaq #cuda

Wall Street's Most Consequential Company -- Whose Shares Have Gained 464,000% Since 1999 -- Turns 33 Today

The evolution of artificial intelligence (AI) wouldn't be possible without this foundational business.

Yahoo Finance

This may be extremely niche, but if you need to run a Jupyter kernel in a SLURM job, e.g., to reserve a GPU, and connect it to a notebook in VS Code, here's a solution: https://docs.calkit.org/tutorials/vscode-slurm-notebook/

#opensource #jupyter #hpc #cuda

Connect a Jupyter Notebook to a kernel in a SLURM environment in VS Code - Calkit

TurboQuant model weight compression now graces #Llamacpp, but only if you speak fluent Metal! 🏋️‍♂️ Meanwhile, everyone else waits for TheTom to bless us with a #CUDA port, assuming he ever emerges from the GitHub labyrinth of Pull Request 45. How many engineers does it take to compress a llama? 🤔
https://github.com/TheTom/llama-cpp-turboquant/pull/45 #TurboQuant #Metal #PullRequest #HackerNews #ngated
feat: TQ4_1S weight compression (Metal only, needs CUDA port) by TheTom · Pull Request #45 · TheTom/llama-cpp-turboquant

Summary TQ3_1S (3-bit, 4.0 BPW) and TQ4_1S (4-bit, 5.0 BPW) weight quantization using WHT rotation + Lloyd-Max centroids V2.1 fused Metal kernel: zero threadgroup memory, cooperative SIMD rotation...

GitHub

[Перевод] Ускоряем игру «Жизнь» с помощью CUDA / Triton

Давайте рассмотрим реализацию конвеевской игры «Жизнь» при помощи графической карты. Я хочу поэкспериментировать с разными библиотеками и методиками, чтобы понять, как обеспечить наилучшую производительность. Начнём мы с простого и постепенно будем повышать сложность. Игра «Жизнь» — это простой клеточный автомат, поэтому она должна хорошо поддаваться GPU-ускорению. Правила просты: каждая ячейка в двухмерной сетке или жива, или мертва. На каждом шаге мы подсчитываем живых соседей ячейки (включая диагонали). Если ячейка жива, она остаётся живой, если живы два или три её соседа. В противном случае она умирает. Если клетка мертва, она оживает, если живы ровно три соседа. Из этих простых правил возникает потрясающий объём сложности, о котором написаны подробные статьи. Для простоты я буду рассматривать только сети N×N и пропущу вычисления на краях. Всё будет работать на Nvidia A40, а бенчмарк производительности я буду проводить при N=2 16 . Пока мы будем хранить каждую ячейку в виде 1 байта, поэтому весь массив займёт 4 ГБ. Весь код выложен в репозитории GitHub .

https://habr.com/ru/articles/1018126/

#cuda #triton #игра_жизнь

Ускоряем игру «Жизнь» с помощью CUDA / Triton

Давайте рассмотрим реализацию конвеевской игры «Жизнь»  при помощи графической карты. Я хочу поэкспериментировать с разными библиотеками и методиками, чтобы понять, как обеспечить наилучшую...

Хабр

CUDA configuration is eating your AI project's time and nobody's talking about it.

I sat down with #CIQ 's #DamenKnight to dig into why general-purpose Linux wasn't built for GPU workloads and what "validated" actually means.

https://podcast.itguyeric.com/20
#Linux #CUDA #AIInfrastructure #MLOps #GPU

От MNIST к Transformer. Часть 4. Gradient Descent. Обучаем нашу модель

Мы живем в эпоху, когда ИИ стал доступен каждому. Но за магией PyTorch скрывается колоссальная инженерная работа и сложные вычислительные процессы, которые для большинства остаются черным ящиком. Это четвертая статья из цикла От MNIST к Transformer , цель которого пошагово пройти путь от простого CUDA ядра до создания архитектуры Transformer - фундамента современных LLM моделей. Мы не будем использовать готовые высокоуровневые библиотеки. Мы будем разбирать, как все устроено под капотом, и пересобирать их ключевые механизмы своими руками на самом низком уровне. Только так можно по настоящему понять как работают LLM и что за этим стоит. В этой статье мы разберем как работает градиентный спуск, реализуем его и обучим нашу модель для распознования mnist датасета. Приготовьтесь, будет много кода на C++ и CUDA, работы с памятью и погружения в архитектуру GPU. И конечно же математика что за этим стоит. Поехали!

https://habr.com/ru/articles/1011922/

#cuda #c++ #ml

От MNIST к Transformer. Часть 4. Gradient Descent. Обучаем нашу модель

Мы живем в эпоху, когда ИИ стал доступен каждому. Но за магией  PyTorch  скрывается колоссальная инженерная работа и сложные вычислительные процессы, которые для большинства остаются черным...

Хабр

Keynote at IWOCL 2026: Paulius Velesko presents chipStar — compiling unmodified CUDA/HIP code into OpenCL & SPIR-V fat binaries that run on Intel, AMD, NVIDIA, ARM, and RISC-V hardware. No recompilation needed.

Join us at IWOCL 2026, May 6–8 in Heilbronn, Germany to hear more.

View the full program at: https://www.iwocl.org/iwocl-2026/conference-program/
#IWOCL2026 #OpenCL #SYCL #CUDA #HPC #HeterogeneousComputing #RISCV #CUDA

DRTriton: Large-Scale Synthetic Data Reinforcement Learning for Triton Kernel Generation

#Triton #CUDA #LLM

https://hgpu.org/?p=30706

DRTriton: Large-Scale Synthetic Data Reinforcement Learning for Triton Kernel Generation

Developing efficient CUDA kernels is a fundamental yet challenging task in the generative AI industry. Recent researches leverage Large Language Models (LLMs) to automatically convert PyTorch refer…

hgpu.org