CUDA-L2: Surpassing cuBLAS Performance for Matrix Multiplication through Reinforcement Learning

#CUDA #CUBLAS #MatrixMultiplication #Package

https://hgpu.org/?p=30469

CUDA-L2: Surpassing cuBLAS Performance for Matrix Multiplication through Reinforcement Learning

In this paper, we propose CUDA-L2, a system that combines large language models (LLMs) and reinforcement learning (RL) to automatically optimize Half-precision General Matrix Multiply (HGEMM) CUDA …

hgpu.org
Oh great, another #AI claiming it can multiply matrices faster than #cuBLAS 😴. Reinforcement learning to the rescue! Because when in doubt, throw AI at it and pray for miracles 🙏.
https://github.com/deepreinforce-ai/CUDA-L2 #Matrix #Multiplication #ReinforcementLearning #TechHumor #HackerNews #ngated
GitHub - deepreinforce-ai/CUDA-L2: CUDA-L2: Surpassing cuBLAS Performance for Matrix Multiplication through Reinforcement Learning

CUDA-L2: Surpassing cuBLAS Performance for Matrix Multiplication through Reinforcement Learning - deepreinforce-ai/CUDA-L2

GitHub

CUDA-L2: Surpassing cuBLAS Performance for Matrix Multiplication Through RL

https://github.com/deepreinforce-ai/CUDA-L2

#HackerNews #CUDA #L2 #cuBLAS #Matrix #Multiplication #RL #Performance

GitHub - deepreinforce-ai/CUDA-L2: CUDA-L2: Surpassing cuBLAS Performance for Matrix Multiplication through Reinforcement Learning

CUDA-L2: Surpassing cuBLAS Performance for Matrix Multiplication through Reinforcement Learning - deepreinforce-ai/CUDA-L2

GitHub

Nvidia CMP – микроскопы для забивания гвоздей?! Копаем глубже…

Почему видеокарта, имеющая неплохие вычислительные возможности, в Stable Diffusion работает в 20 раз медленнее, чем RTX 3060? Почему в LM Studio она становится фаворитом, а в ComfyUI карета превращается в тыкву? Почему FurMark на CMP 90HX тормозит, а на CMP 50HX «бублик» крутится почти нормально? Разгадки в разных программных ограничениях, которые можно найти с помощью экспериментов. Я купил три майнинговые карты Nvidia, чтобы понять, можно ли заставить их эффективно работать. В этот раз мы рассмотрим: статистику производительности в LM Studio, как всё печально в ComfyUI и Stable Diffusion, анатомию программного кода GPU, почему оптимизации производительности дают на CMP обратный эффект, какие режимы вычислений могут раскрыть их потенциал.

https://habr.com/ru/articles/948396/

#llm #nvidia #cmp #50hx #90hx #lm_studio #майнинг #cuda #cublas #40hx

Nvidia CMP – микроскопы для забивания гвоздей?! Копаем глубже…

Почему видеокарта, имеющая неплохие вычислительные возможности, в Stable Diffusion работает в 20 раз медленнее, чем RTX 3060? Почему в LM Studio она становится фаворитом, а в ComfyUI карета...

Хабр
TIL: Even though #Cublas always assumes column-major order, the docs of #cudaMemcpy2D assume row-major order!

Evaluation of computational and energy performance in matrix multiplication algorithms on CPU and GPU using MKL, cuBLAS and SYCL

#CUDA #SYCL #MKL #CUBLAS #MatrixMultiplication #LinearAlgebra #Performance #Package

https://hgpu.org/?p=29229

Evaluation of computational and energy performance in matrix multiplication algorithms on CPU and GPU using MKL, cuBLAS and SYCL

Matrix multiplication is fundamental in the backpropagation algorithm used to train deep neural network models. Libraries like Intel’s MKL or NVIDIA’s cuBLAS implemented new and optimiz…

hgpu.org
Not sure who needs to know that, but if you get a #CUBLAS error 15 with #llama.cpp and the .cu-file has something about f16 at about the line which fails, starting main with --memory-f32 may be a workaround. Had this with the #NVIDIA #Tesla #M40 24GB.
#AI #MachineLearning #CUDA #llama2 #Meta