Как мы провели лоботомию 744-миллиардной нейросети GLM-5.1, чтобы запустить её на 16 ГБ VRAM

У нас не было фермы. У нас была бесплатная виртуальная машина на Kaggle с одной старушкой NVIDIA T4 на 16 ГБ VRAM. И у нас была концепция экстремального MLOps под кодовым названием «Russian Winter 26» . В этой статье я расскажу, как мы вскрыли архитектуру самого тяжелого китайского гиганта, переписали математику матриц внимания, обошли хардкодные ограничения GQA и заставили ядро модели сделать первый вдох на бесплатном железе.

https://habr.com/ru/articles/1022686/

#LLM #MLOps #Hugging_Face #PyTorch #GLM51 #Kaggle #нейросети #оптимизация #тензоры #искусственный_интеллект

Как мы провели лоботомию 744-миллиардной нейросети GLM-5.1, чтобы запустить её на 16 ГБ VRAM

Современный мир Open-Source AI несправедлив. Когда ZhipuAI выкатили свою новую архитектуру GLM-5.1, в её паспорте значилась цифра, от которой у владельцев домашних ПК темнеет в глазах — 744 миллиарда...

Хабр

[Перевод] Локальный запуск GLM-5.1

Перевод подготовил автор канала Друг Опенсурса , приятного прочтения, заранее благодарю за подписку В этой статье мы подробно разберем процесс развертывания GLM-5.1 с использованием llama.cpp и форматов GGUF. Узнаем о системных требованиях, сборке и настройках, оптимизации и практическом применении.

https://habr.com/ru/articles/1022242/

#glm51 #llm #Llamacpp #Unsloth #GGUF #Локальный_запуск #tool_calling #Zai #искусственный_интеллект

Локальный запуск GLM-5.1

Перевод подготовил автор канала  Друг Опенсурса , приятного прочтения, заранее благодарю за подписку GLM-5.1 — это новая открытая модель от Z.ai. Она имеет 744 млрд параметров (40 млрд активных)...

Хабр

GLM-5.1, 600번 반복 끝에 6배 성능을 끌어낸 AI 코딩 모델

Z.ai의 GLM-5.1은 600번 반복으로 6배 성능을 낸 AI 코딩 모델. 오래 실행할수록 나아지는 장기 수평선 능력과 MIT 오픈소스 공개 소식을 소개합니다.

https://aisparkup.com/posts/10992

ZhipuAI ran GLM-5.1 on a vector database optimization problem and let it go for 600 iterations. It did not run out of ideas. At iteration 50 it was sitting at roughly the same performance as the best single-session result any model had achieved. By iteration 600 it had reached 21,500 queries per second. The previous best was 3,547.

The model is MIT licensed & Available on HuggingFace .

Here's what this model can do & who is it for
https://firethering.com/glm-5-1-open-source-agentic-model/
#opensource #ai #glm51#trending #llm

GLM 5.1: The open source model that gets better the longer you run it - Firethering

Give an AI agent a hard problem and it usually figures out the easy wins fast. After that, more time does not help. It just sits there, trying the same things. ZhipuAI ran GLM-5.1 on a vector database optimization problem and let it go for 600 iterations. It did not run out of ideas. At iteration 50 it was sitting at roughly the same performance as the best single-session result any model had achieved. By iteration 600 it had reached 21,500 queries per second. The previous best was 3,547. That gap is not incremental improvement. It is a different category of result. GLM-5.1 is open source, MIT licensed, and the weights are on HuggingFace right now. It works with Claude Code, vLLM, and SGLang. If you are building anything that runs agents over long tasks, this one is worth understanding.

Firethering
內地媒體報道,通用大模型開發商智譜(2513)正式發布新一代開源模型GLM-5.1。據OpenRouter顯示,伴隨這次發布,智譜GLM再度提價10%。受到有關消息
https://www.hk01.com/財經快訊/60338182/ai概念股智譜推新模型兼加價-刺激股價曾飆近19-港股異動

[Z.AI Coding Plan, GLM-5.1 모델 지원 — Claude Code·OpenClaw에서 전환 방법

Z.AI의 GLM-5.1 모델이 **Coding Plan** 플랜(Max/Pro/Lite)에서 지원되기 시작했으며, 기존 Claude Code 및 OpenClaw에서 전환 방법을 공개했다. 전환은 설정 파일 수정(~/.claude/settings.json 또는 ~/.openclaw/openclaw.json)으로 가능하며, OpenAI Compatible 방식도 지원한다. GLM-5.1은 **204,800 토큰 컨텍스트 윈도우**와 **131,072 토큰 최대 출력**을 지원한다.

https://news.hada.io/topic?id=27943

#glm51 #codingai #modeltransition #zai #claude

Z.AI Coding Plan, GLM-5.1 모델 지원 — Claude Code·OpenClaw에서 전환 방법

<p>Z.AI의 GLM Coding Plan이 최신 모델인 GLM-5.1을 지원하기 시작했습니다. Max, Pro, Lite 전 플랜 사용자가 이용 가능하며, 기존에 사용하던 ...

GeekNews