New benchmark shows that larger CUDA tiles can cut Flash Attention throughput by 18‑43 % across sequence lengths. The study dives into kernel design, TFLOPS loss, and what it means for transformer model efficiency on NVIDIA GPUs. Open‑source researchers can use these insights to tune their kernels and reclaim performance. #FlashAttention #CUDATiles #GPUPerformance #TFLOPS

🔗 https://aidailypost.com/news/large-cuda-tiles-reduce-flash-attention-tflops-by-1843-across

Yuchen Jin (@Yuchenj_UW)

작성자는 모델에게 B200s용 커널을 FlashAttention-4보다 더 잘 작성하게 하거나, NanoGPT를 더 빠르게 만들기 위한 새로운 연구 아이디어를 내게 하는 등 실험적·개발자용 활용 사례를 언급하며 곧 테스트하겠다고 밝혔습니다.

https://x.com/Yuchenj_UW/status/2029642799277318503

#nanogpt #flashattention #gpu #kernels

Yuchen Jin (@Yuchenj_UW) on X

@DeryaTR_ @_overment 🫡 I have some too, like asking it to write kernels on B200s better than FlashAttention-4, or come up with new research ideas to make nanogpt faster, will test today

X (formerly Twitter)
The Hidden Engineering Behind Fast AI: How LLM Inference Actually Works

A deep dive into PagedAttention, speculative decoding, FlashAttention, and continuous batching — the clever tricks that make modern LLMs respond in milliseconds instead of minutes.

TechLife

Triton, Flash-attension, Sage-attension и bitsandbytes с Rocm7 в Windows

В конце января 2026 вышел triton-windows 3.6.0.post25 , который позволяет использовать flash-attention , sage-attention (v1) и другие библиотеки, использующие Triton, на картах AMD с поддержкой rocWMMA в Windows. Также, несмотря на то, что в официальном репозитории bitsandbytes еще не приняли PR для поддержки ROCm 7, его все же можно собрать, внеся небольшие изменения в код. Эти изменения я уже сделал в своем форке. В этой статье я расскажу, как установить все это себе, а также для примера запустим пару тестов в ComfyUI, в том числе со свежей LTX-2, и сделаем Qlora адаптер для модели Gemma 3.

https://habr.com/ru/articles/987672/

#triton #amd #rx7900 #sageattention #flashattention #bitsandbytes #rocm #rocm7 #comfyui #ltx2

Triton, Flash-attension, Sage-attension и bitsandbytes с Rocm7 в Windows

В конце января 2026 вышел triton-windows 3.6.0.post25 , который позволяет использовать flash-attention , sage-attention (v1) и другие библиотеки, использующие Triton, на картах AMD с поддержкой...

Хабр

🖥️ Thử Qwen3‑30B (a3b VL Q4_XS) trên GPU P40 với Flash Attention. Đạt context 100k, nhưng khi tới ~60K gặp lỗi lặp đoạn, hiệu năng giảm mạnh. Tắt FA, chuyển MOE weights sang CPU: tốc độ giảm ~5x, K‑cache chậm ở Q4/Q5. Người dùng đang tìm cách tối ưu cài đặt. #AI #LLM #Qwen30B #FlashAttention #GPU #LocalLLaMA #trí_tự_nhiên #công_nghệ

https://www.reddit.com/r/LocalLLaMA/comments/1q03z3j/p40_qwen30b_60k_context_window_ceiling_with_flash/

Reimplementing FlashAttention for performance and giggles | AmineDiro

Blog

NVIDIA wprowadza Skip Softmax – rewolucja w szybkości LLM-ów

Czy naprawdę trzeba liczyć uwagę do każdego słowa w 128 tysiącach tokenów? NVIDIA twierdzi, że nie – i pokazuje, jak zrobić to szybciej, nie rozwalając modelu.

Czytaj dalej:
https://pressmind.org/nvidia-wprowadza-skip-softmax-rewolucja-w-szybkosci-llm-ow/

#PressMindLabs #blackwell #flashattention #hopper #rag #skipsoftmax

NVIDIA prezentuje Skip Softmax – rewolucja w obliczeniach LLM!

Czy naprawdę musimy liczyć uwagę każdego tokena do każdego innego tokena, tylko dlatego że tak mówi matematyka? NVIDIA twierdzi, że nie – i pokazuje, jak zrobić to sprytniej.

Czytaj dalej:
https://pressmind.org/nvidia-prezentuje-skip-softmax-rewolucja-w-obliczeniach-llm/

#PressMindLabs #flashattention #llm #nvidia #rag #skipsoftmax

Ускоряем LLM по максимуму. Как я создал кросс-платформенный Flash Attention с поддержкой Turing+ архитектур и не только

На сегодняшний день трансформеры правят балом хайпа в мире машинного обучения, особенно после появления ChatGPT и ему подобных языковых моделей. Это стало возможным благодаря лежащему в основе их архитектуры механизму внимания (attention), однако он же и является слабым местом с точки зрения производительности и потребления памяти. Хотя в связи с этим и была разработана изящная концепция Flash Attention (Tri Dao), её существующие реализации имеют ряд ограничений. Поэтому представляю вашему вниманию первую и единственную open-source реализацию Flash Attention 2 на Triton с поддержкой Linux и Windows, Turing-Blackwell архитектур (теперь можно работать в Google Colab и Kaggle), гомо и гетерогенных кластеров, опциональным детерминизмом, а также возможностью ручной кастомизации ядер (kernels) для более гибкой настройки под каждую GPU архитектуру отдельно. Более подробно о том как это устроено и не только — далее в статье.

https://habr.com/ru/articles/976576/

#машинное_обучение #transformers #трансформеры #внимание #attention #flashattention #triton #большие_языковые_модели #llm #оптимизация_производительности

Ускоряем LLM по максимуму. Как я создал кросс-платформенный Flash Attention с поддержкой Turing+ архитектур и не только

На сегодняшний день трансформеры правят балом хайпа в мире машинного обучения, особенно после появления ChatGPT и ему подобных языковых моделей. Это стало возможным благодаря лежащему в основе их...

Хабр

New update: PyTorch and NVIDIA’s BioNeMo now support attn_input_format, unlocking faster flash‑attention scaling for models like ESM3. The change adds cu_seq_lens_q handling and integrates with Hugging Face and Transformer Engine, boosting open‑source LLM performance. Dive into the details to see how this impacts your next project. #PyTorch #NVIDIA #flashattention #BioNeMo

🔗 https://aidailypost.com/news/pytorch-nvidia-bionemo-add-attninputformat-flashattention-scaling