Akshay (@akshay_pachaar)
UnslothAI가 PyTorch의 기본 autograd 대신 OpenAI의 Triton 언어로 자체 backpropagation 커널을 구현해 성능을 높인 점을 소개한다. PyTorch Autograd와 Unsloth Triton Kernels를 비교하며, 딥러닝 학습 최적화와 커스텀 커널 설계 측면에서 주목할 만한 기술적 성과를 강조한다.
Akshay (@akshay_pachaar)
UnslothAI가 PyTorch의 기본 autograd 대신 OpenAI의 Triton 언어로 자체 backpropagation 커널을 구현해 성능을 높인 점을 소개한다. PyTorch Autograd와 Unsloth Triton Kernels를 비교하며, 딥러닝 학습 최적화와 커스텀 커널 설계 측면에서 주목할 만한 기술적 성과를 강조한다.

PyTorch Autograd vs. Unsloth Triton Kernels. The core engineering behind UnslothAI has always been impressive! Instead of relying on PyTorch's default autograd for backpropagation, Unsloth built their own backprop kernels from scratch in OpenAI's Triton language (a Python-based

Les États-Unis ont finalement admis la perte d'un drone MQ-4C Triton, équipé de matériel de surveillance sensible, dans le golfe Persique le 9 avril, suite à la perte soudaine et totale de son signal de suivi.

Les États-Unis ont finalement admis la perte d'un drone MQ-4C Triton, équipé de matériel de surveillance sensible, dans le golfe Persique le 9 avril, suite à la perte soudaine et totale de son signal de suivi.
Kernel-Smith: A Unified Recipe for Evolutionary Kernel Optimization
[Перевод] Ускоряем игру «Жизнь» с помощью CUDA / Triton
Давайте рассмотрим реализацию конвеевской игры «Жизнь» при помощи графической карты. Я хочу поэкспериментировать с разными библиотеками и методиками, чтобы понять, как обеспечить наилучшую производительность. Начнём мы с простого и постепенно будем повышать сложность. Игра «Жизнь» — это простой клеточный автомат, поэтому она должна хорошо поддаваться GPU-ускорению. Правила просты: каждая ячейка в двухмерной сетке или жива, или мертва. На каждом шаге мы подсчитываем живых соседей ячейки (включая диагонали). Если ячейка жива, она остаётся живой, если живы два или три её соседа. В противном случае она умирает. Если клетка мертва, она оживает, если живы ровно три соседа. Из этих простых правил возникает потрясающий объём сложности, о котором написаны подробные статьи. Для простоты я буду рассматривать только сети N×N и пропущу вычисления на краях. Всё будет работать на Nvidia A40, а бенчмарк производительности я буду проводить при N=2 16 . Пока мы будем хранить каждую ячейку в виде 1 байта, поэтому весь массив займёт 4 ГБ. Весь код выложен в репозитории GitHub .

Nach dem Wechsel in der Chefetage von Xbox deuten interne Daten auf strukturelle Anpassungen beim Game Pass hin. In den Dateien eines aktuellen Updates verstecken sich Hinweise auf eine bislang unangekündigte Abo-Stufe mit einem speziellen Spielefokus.
La Marine nationale a reçu son premier avion de soutien maritime «Balbuzard»
DRTriton: Large-Scale Synthetic Data Reinforcement Learning for Triton Kernel Generation