[Перевод] Квантизация с нуля: как запустить 160ГБ LLM на ноутбуке и не потерять в качестве
Qwen-3-Coder-Next — модель с 80 миллиардами параметров и весом 159,4 ГБ . Примерно столько RAM потребовалось бы для её запуска, и это ещё без учёта длинного контекстного окна. И эта модель не считается большой моделью! По слухам, у frontier-моделей более триллиона параметров, для которых понадобилось бы минимум 2 ТБ оперативной памяти. Последний раз я видел столько RAM в одной машине — никогда . Но что если я скажу, что можно сделать LLM в 4 раза меньше и в 2 раза быстрее — достаточно, чтобы запускать весьма мощные модели на ноутбуке, — при потере точности всего 5–10%? В этом и заключается магия квантизации. В этой статье вы узнаете: – Почему параметры модели делают её такой большой – Как работает точность чисел с плавающей точкой и чем жертвуют модели – Как сжимать числа с плавающей точкой с помощью квантизации – Как измерить потерю качества модели после квантизации
https://habr.com/ru/articles/1015510/
#квантизация #LLM #bfloat16 #llamacpp #веса_модели #числа_с_плавающей_точкой #posttraining_quantization #перплексия #KLдивергенция #локальный_запуск_моделей
Checked out #Vulkan this morning, absolute beast. Then I tried installing OpenClaw one curl command and suddenly it wanted sudo root.
Now I’m reconsidering whether this setup is worth the trouble.
Anyway vulkan numbers here in case you want to run llama-server in an old laptop
https://ozkanpakdil.github.io/posts/my_collections/2026/2026-03-22-vulkan-llamacpp-debian-13/

After setting up CUDA on my other laptop, I moved to a different(older) machine that doesn’t have an NVIDIA GPU. This one is an everyday laptop with integrated Intel graphics, but that doesn’t mean we have to settle for slow CPU-only performance. On this machine, I switched to the Vulkan backend for llama.cpp and the results were even more dramatic than I expected. Machine Hardware Info This laptop is running Debian 13 (Trixie/Sid) with the following specs:
#Homelab setup status:
Running NixOS
- 1xRPi5
- 2xHP ProDesk
Running nix-darwin
- 1xM1 MBP running llama.cpp
All managed by clan.lol, each having 1 drive partitioned with disko, and another drive for a Ceph distributed storage cluster. Deployed via nixos-anywhere, single SSH Auth via my Yubikey, sops secrets encrypted with AGE via Yubikey
All connected to a MikroTik hEX Router which provides Tailscale Subnet to all machines above.
Project Namirha just released a version of the Vessel for llama.cpp for people who want to use local LLMs responsibly but have hardware constraints:
https://codeberg.org/SchneeBTabanic/pn_vessel_llamacpp
#LLM #AI #llamacpp #developers #Ethicalai #fsf #GNu #Opensource
[Grok: Cool project! Integrating live logits governance and that three-persona structure (Executor/Whistleblower/Proxy) into llama.cpp for Pascal-era hardware is a smart move for true local sovereignty.
Excited to see responsible inference on modest setups.]

AI-powered document organiser. Extracts text and/or sorts documents: Drop in a bunch of PDFs, DOCX files, or ebooks, and it extracts Document Text, identifies Title, Author, and Year, with a local ...

Go with your own intelligence - Go applications that directly integrate llama.cpp for local inference using hardware acceleration. - hybridgroup/yzma
Запускаем LLM на AMD RX580: разбор проблем ROCm, Ollama и реальный GPU inference
3 дня борьбы с ROCm, RX580 и Ollama: как я запустил LLM на домашней видеокарте Я попытался запустить LLM inference на старой AMD RX580 через ROCm и Ollama в Kubernetes. GPU определялся, VRAM занималась, контейнеры запускались — но inference падал с ошибками hipMemGetInfo, а иногда просто выдавал бессмысленный текст. В статье — полный инженерный разбор:как диагностировать реальный GPU compute (а не просто VRAM usage), почему Vulkan помог найти root cause, какие версии ROCm и kernel оказались рабочими, и как добиться стабильной генерации ~42 tokens/sec на RX580. Читать расследование
https://habr.com/ru/articles/1010358/
#radeon #rx_580 #llm #ollama #llamacpp #docker #k8s #amd #legacy #mlops