Mastodawn

Obviously when I teach #GPGPU I point out that the main point is performance, and “how to measure” is a topic we address. Obviously, the primary metric is kernel runtime. I then introduce the effective bandwidth metric (bytes read + bytes written, divided by time taken by the kernel) which is a good way to compare some similar kernels AND to discuss hardware limits and how close we are to them (I don't always discuss the roofline model though, maybe I should).

When we start to look into more advanced things, we hit the “snag” that sometimes a kernel using a more efficient technique may be _less_ effective at using a particular resource, e.g. by having having a _lower_ effective bandwidth —I do this on purpose to show how kernel runtime remains the ultimate “tell” on how good a kernel is compared to another (regardless of the additional information the effective bandwidth may tell us).

At this point I introduce a metric for which I don't actually know if there is a name: number of elements processed per seconds, which is just the number of elements, divided by the kernel runtime.

I call this effective throughput, but sometimes I get the nagging feeling that this may not be the correct term?

Habr Mar 30

Стена данных: почему ИИ упирается не в GPU, а в реальность

В новой статье наш эксперт Антон Пчелинцев размышляет о причинах дефицита качественных данных, следующем прорыве в области развития ИИ и о том, что делать для получения преимущества.

https://habr.com/ru/articles/1016998/

#искусственный_интеллект #машинное+обучение #bigdata #стена_данных #gpu #gpgpu #данные #качество_данных #synthetic_data #синтетические_данные

Стена данных: почему ИИ упирается не в GPU, а в реальность

Если вы когда-нибудь задумывались, почему огромные GPU-кластеры перестали быть главным драйвером прогресса в развитии ИИ, а контракты на данные подписываются за десятки миллионов долларов — эта статья...

Хабр

sayzard Mar 15

Sudo su (@sudoingX)

5년 된 RTX 3060(12GB VRAM)에서 9B(약 90억) 파라미터 모델이 단일 프롬프트로 전체 우주 슈팅 게임을 작성한 사례를 보고함. 초기 실행에서 빈 화면이 나왔지만 작성자가 버그 목록을 보내자 동일 모델과 동일 GPU 환경에서 11개 파일에 걸쳐 모든 문제를 스스로 수정함. 경량 하드웨어에서의 강력한 코드 생성·수정 능력을 시연한 실험적 사례.

https://x.com/sudoingX/status/2033020823846674546

#llm #nvidia #gpgpu #codegeneration

Sudo su (@sudoingX) on X

this is what 12 gigs of VRAM built in 2026. a 9 billion parameter model running on a 5 year old RTX 3060 wrote a full space shooter from a single prompt. blank screen on first try. i came back with a bug list and the same model on the same card fixed every issue across 11 files

X (formerly Twitter)

Siebencorgie Mar 10

Sooo, I want to sample mipmaps in a compute shader via "sampleGrad".

Does anyone know what the state-of-the-art is for deriving ddx and ddy for uv-coords in a compute shader?

I don't want to store the UV's derivatives in a G-buffer if possible.

#rendering #glsl #slang #hlsl #shader #gpgpu #vulkan #opengl

fugahogeds Mar 8

更新されたよ、見に来てね!→ 【ダイジェスト版】#AI がコードを書き換え！？激動の #OSS エコシステムに迫る！テック談義、ちょっと深掘り 2026年3月9日(月) #News #Security #GPGPU https://www.youtube.com/shorts/_wbzMwOT2uM

【ダイジェスト版】#AI がコードを書き換え！？激動の #OSS エコシステムに迫る！テック談義、ちょっと深掘り 2026年3月9日(月) #News #Security #GPGPU

YouTube

fugahogeds Mar 8

更新されたよ、見に来てね!→ #AI がコードを書き換え！？激動の #OSS エコシステムに迫る！テック談義、ちょっと深掘り 2026年3月9日(月) #News #Security #GPGPU https://www.youtube.com/watch?v=XFjuLtCkxIg

#AI がコードを書き換え！？激動の #OSS エコシステムに迫る！テック談義、ちょっと深掘り 2026年3月9日(月) #News #Security #GPGPU

YouTube

Habr Feb 20

От MNIST к Transformer. Часть 2. Основы работы с памятью

Мы живем в эпоху, когда ИИ стал доступен каждому. Но за магией PyTorch скрывается колоссальная инженерная работа и сложные вычислительные процессы, которые для большинства остаются черным ящиком. Это вторая статья из цикла От MNIST к Transformer , цель которого пошагово пройти путь от простого CUDA ядра до создания архитектуры Transformer - фундамента современных LLM моделей. Мы не будем использовать готовые высокоуровневые библиотеки. Мы будем разбирать, как все устроено под капотом, и пересобирать их ключевые механизмы своими руками на самом низком уровне. Только так можно по настоящему понять как работают LLM и что за этим стоит. В этой статье разберем основы работы с памятью и две простые математические операции с точки зрения математики, но не такие простые с точки зрения CUDA ядер. Приготовьтесь, будет много кода на C++ и CUDA, работы с памятью и погружения в архитектуру GPU. И конечно же математика что за этим стоит. Поехали!

https://habr.com/ru/articles/1001886/

#ml #cuda #c++ #gpgpu

От MNIST к Transformer. Часть 2. Основы работы с памятью

Хабр

Habr Feb 16

От MNIST к Transformer. Hello CUDA. Основы, Setup и наше первое ядро

Мы живем в эпоху, когда ИИ стал доступен каждому. Но за магией PyTorch скрывается колоссальная инженерная работа и сложные вычислительные процессы, которые для большинства остаются черным ящиком. Я хочу запустить большой цикл статей От MNIST к Transformer , цель которого пошагаво пройти путь от простого CUDA ядра до создания архитектуры Transformer - фундамента современных LLM моделей. Мы не будем использовать готовые высокоуровневые библиотеки. Мы будем разбирать, как все устроено под капотом, и пересобирать их ключевые механизмы своими руками на самом низком уровне. Только так можно по настоящему понять как работают LLM и что за этим стоит. Приготовьтесь, будет много кода на C++ и CUDA, работы с памятью и погружения в архитектуру GPU. И конечно же математика что за этим стоит. Поехали!

https://habr.com/ru/articles/996610/

#cuda #c++ #gpgpu #ml #lowlevel_programming

От MNIST к Transformer. Hello CUDA. Основы, Setup и наше первое ядро

Хабр

Giuseppe Bilotta Feb 12

I'm double-checking I have everything ready for my #GPGPU lessons (course starts in March) and of course a recent upgrade seems to have busted #rusticl on my machine, with a #segfault somewhere in kernel compilation stage. Not happy about it, but I guess it's par of the course when running somewhat bleeding edge OSes (Debian unstable + some weird stuff). Let's see if this issue is fixed wth the version of Mesa in experimental, or if I can report the bug.

Habr Feb 11

OpenCL, SYCL и матрицы

В данной статье я описываю свой опыт разработки приложений с OpenCL/SYCL. Вычисления на видеокартах ассоциируются преимущественно с графикой, научными вычислениями и с недавних пор с нейросетями. Но чаще всего с графикой. Тем не менее, графические процессоры обладают свойствами, за счёт которых их очень удобно использовать в задачах, напрямую не связанных с перечисленным выше. И главное из этих свойств – массовый параллелизм. Самый краткий ввод в гетерогенное программирование: у нас есть две роли — хост и девайс , задача хоста – формировать задачи и отдавать их на девайс, в то время как задача девайса обработать их и вернуть результат. При этом хост и девайс могут быть одним вычислительным устройством (это не обязательно CPU + GPU, так как CPU может отдавать задачи сам себе).

https://habr.com/ru/articles/994986/

#gpgpu #opencl #sycl #gpu_computing

OpenCL, SYCL и матрицы

Предисловие Эта статья, по-сути, краткое описание моего опыта разработки приложений на OpenCL/SYCL. По большому счёту, это просто «рассуждения о жизни» в рамках того, что я успел подметить во время...

Хабр

Стена данных: почему ИИ упирается не в GPU, а в реальность

Sudo su (@sudoingX) on X

【ダイジェスト版】#AI がコードを書き換え！？ 激動の #OSS エコシステムに迫る！ テック談義、ちょっと深掘り 2026年3月9日(月) #News #Security #GPGPU

#AI がコードを書き換え！？ 激動の #OSS エコシステムに迫る！ テック談義、ちょっと深掘り 2026年3月9日(月) #News #Security #GPGPU

От MNIST к Transformer. Часть 2. Основы работы с памятью

От MNIST к Transformer. Hello CUDA. Основы, Setup и наше первое ядро

OpenCL, SYCL и матрицы

【ダイジェスト版】#AI がコードを書き換え！？激動の #OSS エコシステムに迫る！テック談義、ちょっと深掘り 2026年3月9日(月) #News #Security #GPGPU

#AI がコードを書き換え！？激動の #OSS エコシステムに迫る！テック談義、ちょっと深掘り 2026年3月9日(月) #News #Security #GPGPU