Как мы провели лоботомию 744-миллиардной нейросети GLM-5.1, чтобы запустить её на 16 ГБ VRAM
У нас не было фермы. У нас была бесплатная виртуальная машина на Kaggle с одной старушкой NVIDIA T4 на 16 ГБ VRAM. И у нас была концепция экстремального MLOps под кодовым названием «Russian Winter 26» . В этой статье я расскажу, как мы вскрыли архитектуру самого тяжелого китайского гиганта, переписали математику матриц внимания, обошли хардкодные ограничения GQA и заставили ядро модели сделать первый вдох на бесплатном железе.
https://habr.com/ru/articles/1022686/
#LLM #MLOps #Hugging_Face #PyTorch #GLM51 #Kaggle #нейросети #оптимизация #тензоры #искусственный_интеллект






