[Перевод] Ускоряем игру «Жизнь» с помощью CUDA / Triton

Давайте рассмотрим реализацию конвеевской игры «Жизнь» при помощи графической карты. Я хочу поэкспериментировать с разными библиотеками и методиками, чтобы понять, как обеспечить наилучшую производительность. Начнём мы с простого и постепенно будем повышать сложность. Игра «Жизнь» — это простой клеточный автомат, поэтому она должна хорошо поддаваться GPU-ускорению. Правила просты: каждая ячейка в двухмерной сетке или жива, или мертва. На каждом шаге мы подсчитываем живых соседей ячейки (включая диагонали). Если ячейка жива, она остаётся живой, если живы два или три её соседа. В противном случае она умирает. Если клетка мертва, она оживает, если живы ровно три соседа. Из этих простых правил возникает потрясающий объём сложности, о котором написаны подробные статьи. Для простоты я буду рассматривать только сети N×N и пропущу вычисления на краях. Всё будет работать на Nvidia A40, а бенчмарк производительности я буду проводить при N=2 16 . Пока мы будем хранить каждую ячейку в виде 1 байта, поэтому весь массив займёт 4 ГБ. Весь код выложен в репозитории GitHub .

https://habr.com/ru/articles/1018126/

#cuda #triton #игра_жизнь

Ускоряем игру «Жизнь» с помощью CUDA / Triton

Давайте рассмотрим реализацию конвеевской игры «Жизнь»  при помощи графической карты. Я хочу поэкспериментировать с разными библиотеками и методиками, чтобы понять, как обеспечить наилучшую...

Хабр
Ein Dataminer hat in Update-Dateien Hinweise auf eine mögliche neue Abo-Stufe namens #Triton für den #Xbox #GamePass gefunden. #Microsoft bietet damit wohl Zugriff auf eine ganz spezielle Gruppe von Spielen. https://winfuture.de/news,157799.html?utm_source=Mastodon&utm_medium=ManualStatus&utm_campaign=SocialMedia
Xbox Game Pass: Microsoft plant wohl eine besondere neue Abo-Stufe

Nach dem Wechsel in der Chefetage von Xbox deuten interne Daten auf strukturelle Anpassungen beim Game Pass hin. In den Dateien eines aktuellen Updates verstecken sich Hinweise auf eine bislang unangekündigte Abo-Stufe mit einem speziellen Spielefokus.

WinFuture.de

DRTriton: Large-Scale Synthetic Data Reinforcement Learning for Triton Kernel Generation

#Triton #CUDA #LLM

https://hgpu.org/?p=30706

DRTriton: Large-Scale Synthetic Data Reinforcement Learning for Triton Kernel Generation

Developing efficient CUDA kernels is a fundamental yet challenging task in the generative AI industry. Recent researches leverage Large Language Models (LLMs) to automatically convert PyTorch refer…

hgpu.org

AutoKernel: Autonomous GPU Kernel Optimization via Iterative Agent-Driven Search

#CUDA #Triton #Package

https://hgpu.org/?p=30703

AutoKernel: Autonomous GPU Kernel Optimization via Iterative Agent-Driven Search

Writing high-performance GPU kernels is among the most labor-intensive tasks in machine learning systems engineering. We present AutoKernel, an open-source framework that applies an autonomous agen…

hgpu.org

Clean up on aisle 7! Interesting idea - who will pay the bill?

US based Portal Space Systems and Australian startup Paladin Space are combing forces to create and launch a scalable, commercial space debris clean-up service.

Paladin’s supplies their Triton debris identification and capture system with Portal provides its maneuverable Starburst spacecraft. Target launch = Q2 2027. https://www.inc.com/chloe-aiello/these-two-startups-are-teaming-up-to-prevent-a-pearl-harbor-moment-in-space/91318935

#Portal #Paladin #Triton #Space #SpaceJunk #LEO #Starburst #SpaceCraft #SpaceDebris

Triton-Sanitizer: A Fast and Device-Agnostic Memory Sanitizer for Triton with Rich Diagnostic Context

#Triton #ROCm #DeepLearning #Package

https://hgpu.org/?p=30696

Triton-Sanitizer: A Fast and Device-Agnostic Memory Sanitizer for Triton with Rich Diagnostic Context

Memory access errors remain one of the most pervasive bugs in GPU programming. Existing GPU sanitizers such as compute-sanitizer detect memory access errors by instrumenting every memory instructio…

hgpu.org

SOL-ExecBench: Speed-of-Light Benchmarking for Real-World GPU Kernels Against Hardware Limits

#CUDA #Triton #Benchmarking #Package

https://hgpu.org/?p=30694

SOL-ExecBench: Speed-of-Light Benchmarking for Real-World GPU Kernels Against Hardware Limits

As agentic AI systems become increasingly capable of generating and optimizing GPU kernels, progress is constrained by benchmarks that reward speedup over software baselines rather than proximity t…

hgpu.org
Topicbox

An Efficient Heterogeneous Co-Design for Fine-Tuning on a Single GPU

#Triton #NVIDIA #AMD #LLM

https://hgpu.org/?p=30678

An Efficient Heterogeneous Co-Design for Fine-Tuning on a Single GPU

Fine-tuning Large Language Models (LLMs) has become essential for domain adaptation, but its memory-intensive property exceeds the capabilities of most GPUs. To address this challenge and democrati…

hgpu.org