[Перевод] Нехватка CUDA-памяти при обучении с GRPO: как перестать гадать и начать считать
Ошибка CUDA out of memory при обучении LLM обычно превращается в бесконечный цикл случайных правок: уменьшили batch size, урезали sequence length, снизили LoRA rank — и всё равно где-то снова падает. Особенно весело становится в RL-сценариях с GRPO, vLLM и генерацией нескольких ответов на один промпт. Поговорим о том, как перестать гадать и начать считать потребление GPU-памяти: от чтения самого текста ошибки до оценки вклада vLLM, активаций и параметров обучения. С формулами, реальными конфигами и объяснением, какие настройки действительно дают эффект, а какие только создают иллюзию оптимизации. Оптимизировать LLM
https://habr.com/ru/companies/otus/articles/1037332/
#NLP #LLM #GRPO #обучение_с_подкреплением #CUDA_out_of_memory #vLLM #оптимизация_GPU_памяти #дообучение_моделей #LoRA #PyTorch
