TurboQuant model weight compression now graces #Llamacpp, but only if you speak fluent Metal! 🏋️‍♂️ Meanwhile, everyone else waits for TheTom to bless us with a #CUDA port, assuming he ever emerges from the GitHub labyrinth of Pull Request 45. How many engineers does it take to compress a llama? 🤔
https://github.com/TheTom/llama-cpp-turboquant/pull/45 #TurboQuant #Metal #PullRequest #HackerNews #ngated
feat: TQ4_1S weight compression (Metal only, needs CUDA port) by TheTom · Pull Request #45 · TheTom/llama-cpp-turboquant

Summary TQ3_1S (3-bit, 4.0 BPW) and TQ4_1S (4-bit, 5.0 BPW) weight quantization using WHT rotation + Lloyd-Max centroids V2.1 fused Metal kernel: zero threadgroup memory, cooperative SIMD rotation...

GitHub
feat: TQ4_1S weight compression (Metal only, needs CUDA port) by TheTom · Pull Request #45 · TheTom/llama-cpp-turboquant

Summary TQ3_1S (3-bit, 4.0 BPW) and TQ4_1S (4-bit, 5.0 BPW) weight quantization using WHT rotation + Lloyd-Max centroids V2.1 fused Metal kernel: zero threadgroup memory, cooperative SIMD rotation...

GitHub

Свой ИИ без облаков: практический гайд по llama.cpp + Qwen

В этой статье я расскажу, как установить нейросеть на своё оборудование. Так вы сможете изучить LLM и применить их на практике. При этом ваши данные не будут передаваться в чужие облака, что критично при работе с конфиденциальными данными. И вам не придётся платить за использование какого-либо внешнего сервиса или решать вопросы с заблокированным доступом. Вы установите инструмент для запуска больших языковых моделей llama.cpp и модель нейросети Qwen на компьютер или сервер. Я расскажу об установке в тех случаях, когда в составе оборудования есть Nvidia GPU или интегрированная графика Intel Iris Xe Graphics (актуально для ноутбуков).

https://habr.com/ru/companies/first/articles/1017822/

#нейросети #искусственный_интеллект #llamacpp #qwen #локальный_ии

Свой ИИ без облаков: практический гайд по llama.cpp + Qwen

В этой статье я расскажу, как установить нейросеть на своё оборудование. Так вы сможете изучить LLM и применить их на практике. При этом ваши данные не будут передаваться в чужие облака, что критично...

Хабр

New update for the slides of my talk "Run LLMs Locally": WebGPU

Now models can run completely inside the browser using Transformers.js, Vulkan and WebGPU (slower than llama.cpp, but already usable).

https://codeberg.org/thbley/talks/raw/branch/main/Run_LLMs_Locally_2026_ThomasBley.pdf

#ai #llm #llamacpp #stablediffusion #gptoss #qwen3 #glm #localai #webgpu

don't expect llm generated code to be correct ↓

@darkghosthunter I think you might need the #ollama or #llamacpp tags on that question to get better answers, if you want to know about running locally.
So after another few hours of tinkering and bending I got #translategemma #LLM multi-modal text in picture translation working with #llamacpp as model serving. Custom #python REST API and simple web interface. It is not that straightforward as spinning llamacpp and connect OpenAI client from Python. There was few workaround needed, such as bypassing jinja chat template. And other, even for text-text translations.

New update for the slides of my talk "Run LLMs Locally":

Now including music generation with ACE-Step and OCR using LightOnOCR.

https://codeberg.org/thbley/talks/raw/branch/main/Run_LLMs_Locally_2026_ThomasBley.pdf

#ai #llm #llamacpp #stablediffusion #gptoss #qwen3 #glm #localai

Dnes jsem jen tak cvičně vyrobil #python #fastapi openrest api a webui nad #llamacpp a #translategemma #LLM. Musel jsem trochu ohýbat, ale nakonec mi to funguje a musím přiznat, se kvalita překladu je celkem dobrá tedy minimálně 12b verze translategemma.

[Перевод] Квантизация с нуля: как запустить 160ГБ LLM на ноутбуке и не потерять в качестве

Qwen-3-Coder-Next — модель с 80 миллиардами параметров и весом 159,4 ГБ . Примерно столько RAM потребовалось бы для её запуска, и это ещё без учёта длинного контекстного окна. И эта модель не считается большой моделью! По слухам, у frontier-моделей более триллиона параметров, для которых понадобилось бы минимум 2 ТБ оперативной памяти. Последний раз я видел столько RAM в одной машине — никогда . Но что если я скажу, что можно сделать LLM в 4 раза меньше и в 2 раза быстрее — достаточно, чтобы запускать весьма мощные модели на ноутбуке, — при потере точности всего 5–10%? В этом и заключается магия квантизации. В этой статье вы узнаете: – Почему параметры модели делают её такой большой – Как работает точность чисел с плавающей точкой и чем жертвуют модели – Как сжимать числа с плавающей точкой с помощью квантизации – Как измерить потерю качества модели после квантизации

https://habr.com/ru/articles/1015510/

#квантизация #LLM #bfloat16 #llamacpp #веса_модели #числа_с_плавающей_точкой #posttraining_quantization #перплексия #KLдивергенция #локальный_запуск_моделей

Квантизация с нуля: как запустить 160ГБ LLM на ноутбуке и не потерять в качестве

Qwen-3-Coder-Next  — модель с 80 миллиардами параметров и весом  159,4 ГБ . Примерно столько RAM потребовалось бы для её запуска, и это ещё без учёта длинного контекстного окна.  И эта...

Хабр
Just uploaded an experimental patch for the llama.cpp webui
I needed more control over the model's reasoning, so I added a toggle in the WebUI to manage it. You can disable it entirely or set it to different levels (Low, Medium, High).
It's still very early/experimental, but I'm liking the results so far. #llamacpp