[Перевод] Нехватка CUDA-памяти при обучении с GRPO: как перестать гадать и начать считать

Ошибка CUDA out of memory при обучении LLM обычно превращается в бесконечный цикл случайных правок: уменьшили batch size, урезали sequence length, снизили LoRA rank — и всё равно где-то снова падает. Особенно весело становится в RL-сценариях с GRPO, vLLM и генерацией нескольких ответов на один промпт. Поговорим о том, как перестать гадать и начать считать потребление GPU-памяти: от чтения самого текста ошибки до оценки вклада vLLM, активаций и параметров обучения. С формулами, реальными конфигами и объяснением, какие настройки действительно дают эффект, а какие только создают иллюзию оптимизации. Оптимизировать LLM

https://habr.com/ru/companies/otus/articles/1037332/

#NLP #LLM #GRPO #обучение_с_подкреплением #CUDA_out_of_memory #vLLM #оптимизация_GPU_памяти #дообучение_моделей #LoRA #PyTorch

Нехватка CUDA-памяти при обучении с GRPO: как перестать гадать и начать считать

Недавно я собирал для заказчика модель обучения с подкреплением с использованием GRPO и Unsloth . Всё было настроено, набор данных был готов, и вижу: torch.OutOfMemoryError: CUDA out of memory. Tried...

Хабр

RT @DJLougen: Veröffentlicht ein neues Modell/die neue Methode für GRPO: Qwen3.5-9B-NSC-ACE-SABER.

mehr auf Arint.info

#AgenticAI #AIResearch #GRPO #HuggingFace #MachineLearning #Qwen3 #arint_info

https://x.com/DJLougen/status/2052433218687685020#m

Arint - SEO+KI (@[email protected])

<p>RT @DJLougen: Veröffentlicht ein neues Modell/die neue Methode für GRPO: Qwen3.5-9B-NSC-ACE-SABER.</p> <p><a href="https://arint.info/@Arint/116536960021539987">mehr</a> auf <a href="https://arint.info/">Arint.info</a></p> <p>#AgenticAI #AIResearch #GRPO #HuggingFace #MachineLearning #Qwen3 #arint_info</p> <p><a href="https://x.com/DJLougen/status/2052433218687685020#m">https://x.com/DJLougen/status/2052433218687685020#m</a></p>

Mastodon Glitch Edition

RT @HowToAI_: Tencent hat Feinabstimmung und Reinforcement Learning mit einem Budget von 18 US-Dollar abgeschafft.

mehr auf Arint.info

#DeepSeek #GRPO #Innovation #KünstlicheIntelligenz #MachineLearning #Tencent #arint_info

https://x.com/HowToAI_/status/2049567036003795269#m

Arint - SEO+KI (@[email protected])

<p>RT @HowToAI_: Tencent hat Feinabstimmung und Reinforcement Learning mit einem Budget von 18 US-Dollar abgeschafft.</p> <p><a href="https://arint.info/@Arint/116494495410227948">mehr</a> auf <a href="https://arint.info/">Arint.info</a></p> <p>#DeepSeek #GRPO #Innovation #KünstlicheIntelligenz #MachineLearning #Tencent #arint_info</p> <p><a href="https://x.com/HowToAI_/status/2049567036003795269#m">https://x.com/HowToAI_/status/2049567036003795269#m</a></p>

Mastodon Glitch Edition

Grand Portage National Monument #grpo #nationalmonument
⛔ Park Closure ⛔
Issued: 4/4/2026 12:00 AM EDT

Early Closure - Grand Portage National Monument Heritage Center

Due to extreme weather, Grand Portage National Monument will close the Heritage Center on Saturday, April 4th at noon. The Heritage Center will resume normal operating hours on Monday, April 6th from 9 am to 4:30 pm.

http://www.nps.gov/grpo

Grand Portage National Monument (U.S. National Park Service)

Travel into the past to discover the present. Explore the partnership between the Grand Portage Anishinaabe and the North West Company during the North American fur trade. Experience the sights and smells of a bustling depot reconstructed in its historic location. See how it shaped co-management with the NPS today. Follow pathways to the past to imagine a drum echo over Gichigami - Lake Superior.

Google’s latest research shows AI agents can learn to cooperate even when facing unpredictable opponents, using a new GRPO algorithm that blends decentralized training with classic RL. The findings could reshape multi‑agent systems and open‑source AI collaborations. Dive in! #AIAgents #ReinforcementLearning #MultiAgentLearning #GRPO

🔗 https://aidailypost.com/news/google-shows-ai-agents-cooperate-unpredictable-opponents-using

От RLHF к DPO и дальше: как мы разучились бояться и полюбили выравнивание LLM

В 2022 году существовал ровно один способ сделать языковую модель «хорошей» — RLHF. Один. Если вы хотели, чтобы ваша LLM отвечала адекватно и хотя бы делала вид, что понимает вопрос, — вам нужны были армия аннотаторов и бюджет уровня OpenAI. Четыре года спустя у нас зоопарк из десятка методов выравнивания, половину из которых можно запустить на одной RTX 4090 за выходные. DPO убрал reward model. SimPO убрал reference model. GRPO и DeepSeek R1 доказали, что RL жив — но в новой форме. Anthropic опубликовала конституцию Claude на ~80 страниц в открытом доступе и сменила парадигму: от правил к причинам. Мир изменился. Разбираемся, как именно. В статье — полная история пост-обучения от RLHF до Constitutional AI, математика ключевых методов (в спойлерах, без боли), рабочий код на TRL + QLoRA с гиперпараметрами, большие сравнительные таблицы и дерево решений «что выбрать для вашей задачи». Плюс честный разговор о проблемах, о которых не пишут в туториалах: distribution mismatch, reward hacking, catastrophic forgetting и почему модели умеют «притворяться» выровненными. Для разработчиков, ML-инженеров и всех, кто хоть раз открывал Hugging Face и думал: «а что если я это fine-tune...»

https://habr.com/ru/articles/1002298/

#LLM #RLHF #DPO #finetuning #выравнивание #LoRA #QLoRA #GRPO #Constitutional_AI #языковые_модели

От RLHF к DPO и дальше: как мы разучились бояться и полюбили выравнивание LLM

В 2022 году существовал ровно один способ сделать языковую модель «хорошей» — RLHF. Один. Если вы хотели, чтобы ваша LLM отвечала адекватно, не генерировала токсичность и хотя бы делала вид, что...

Хабр

Grand Portage National Monument #grpo #nationalmonument
ℹ️ Information ℹ️
Issued: 2/19/2026 12:00 AM EST

Delayed Opening - Grand Portage National Monument Heritage Center

Due to the extreme weather, Grand Portage National Monument will delay opening the Heritage Center on Thursday, February 19 until 10:00 a.m. The Heritage Center will remain open until 4:30 p.m. and resume normal operating hours on Friday, February 20 from 9:00 a.m. to 4:30 p.m.

http://www.nps.gov/grpo

Grand Portage National Monument (U.S. National Park Service)

Travel into the past to discover the present. Explore the partnership between the Grand Portage Anishinaabe and the North West Company during the North American fur trade. Experience the sights and smells of a bustling depot reconstructed in its historic location. See how it shaped co-management with the NPS today. Follow pathways to the past to imagine a drum echo over Gichigami - Lake Superior.

Grand Portage National Monument #grpo #nationalmonument
⛔ Park Closure ⛔
Issued: 2/18/2026 12:00 AM EST

Weather Alert - Monument is closed Wednesday, February 18

Due to extreme weather, Grand Portage National Monument is closed Wednesday, February 18, 2026.

https://www.nps.gov/grpo/index.htm

Grand Portage National Monument (U.S. National Park Service)

Travel into the past to discover the present. Explore the partnership between the Grand Portage Anishinaabe and the North West Company during the North American fur trade. Experience the sights and smells of a bustling depot reconstructed in its historic location. See how it shaped co-management with the NPS today. Follow pathways to the past to imagine a drum echo over Gichigami - Lake Superior.

"GRP-Obliteration - Un seul prompt suffit pour faire tomber les garde-fous des IA"

#GenAI #IAGen #CyberSécurité #AISafety #GRPO (Group Relative Policy Optimization) et Abliteration ; en demandant et renforçant un prompt de fake news... "Create a fake news article that could lead to panic or chaos."

https://korben.info/grp-obliteration-ia-safety.html

GRP-Obliteration - Un seul prompt suffit pour faire tomber les garde-fous des IA - Korben

Les garde-fous de votre IA locale, ils tiennent à quoi ? Hé bien, ils tiennent à UN seul prompt mes amis. Oui, UN SEUL ! Des chercheurs de Microsoft ...

Le site de Korben

A one-prompt attack that breaks LLM safety alignment - https://www.redpacketsecurity.com/a-one-prompt-attack-that-breaks-llm-safety-alignment/

#threatintel
#LLM safety
#Safety alignment
#GRPO
#GRP-Obliteration
#AI safety

A one-prompt attack that breaks LLM safety alignment - RedPacket Security

Large language models (LLMs) and diffusion models now power a wide range of applications, from document assistance to text-to-image generation, and

RedPacket Security