Mastodawn

QAD от NVIDIA: разбираюсь, почему 4-битная квантизация перестала всё ломать

NVIDIA выпустила отчет о методе QAD, который позволяет квантовать LLM в 4 бита без потери качества на сложных задачах (математика, код). Разбираем, почему привычный QAT «ломает» модели после RLHF, как дистилляция через KL-дивергенцию решает эту проблему и почему метод работает даже на рандомных данных. Личный опыт попыток уместить 49B модель в железо и анализ нового подхода.

https://habr.com/ru/articles/991586/

#LLM #Квантизация #NVIDIA #QAD #QAT #FP4 #Blackwell #Machine_Learning #Llama #Distillation

QAD от NVIDIA: разбираюсь, почему 4-битная квантизация перестала всё ломать

На прошлой неделе NVIDIA выложила отчёт про QAD и я его проигнорировал. Потому что каждый месяц кто-то "решает квантизацию" и каждый раз на практике всё не так радужно. Но потом коллега скинул...

Хабр