New week, new slides: Run LLMs Locally

I added virtualization of OpenCode with Matchlock and Firecracker microVMs,
containerization of OpenCode and llama.cpp with Docker
and a new slide for indirect prompt injection attacks.
Matchlock is a great project for sandboxing, bringing the advantages of containers to virtual machines.

https://codeberg.org/thbley/talks/raw/branch/main/Run_LLMs_Locally_2026_ThomasBley.pdf

#ai #llm #llamacpp #wllama #stablediffusion #qwen3 #glm #localai #gemma4 #webgpu #opencode #firecracker #docker

Yet another itch scratched: Opencode plugin for use with llama-server to show both when and how fast prefill/prompt processing and token generation happens.

source: https://codeberg.org/troed/oc-ls-stats

installation: opencode plugin @troed/oc-ls-stats@latest --global

#OpenCode #llamacpp

oc-ls-stats

Opencode plugin to display the tokens per seconds currently generated by llama-server, as well as whether it's doing prompt processing or token generation.

Codeberg.org

Hoy descubrí que llevaba horas intentando migrar la memoria de Astrid a BIN... cuando Astrid ya usaba BIN desde hace tiempo. 😅

memory.bin seguía ahí, funcionando como una campeona.

A veces programar consiste menos en añadir cosas y más en dejar de perseguir fantasmas.

Commit hecho. 💙🤖

#Rust #llamacpp #AI #AstridProject

More fun trying to move work to local AI servers....

Running a Qwen 3.5 with some DeepSeek v4 distillation, Flash attention, and MTP (using unsloth). Not as fast as #gemma4, but the quality of its work at 128K is night and day better than gemma 4 on this hardware. The GSD codebase mapper is a brutal test of any local model. While serving me well for some time now for judge models, I think I'm gonna do image generations on this server,

2 more to setup:
i7 9700K, 32GB ram, RTX 5060 TI 16GB
i7 11700K, 64GB ram, Arc Pro B70 32GB and Arc B580 12GB

#localAI #qwen35 #llamacpp

Создаем автономный анализатор логов на локальных ИИ моделях

У моего клиента есть пара железных серверов, которые используются для хранения и раздачи статических файлов. Все бы ничего, но любое оборудование требует внимания и регулярного мониторинга. Со временем диски, модули памяти и другие компоненты могут выходить из строя. Причем умирают они не сразу, сначала молча сыплются ошибки в логи, а потом уже поздно что-то предпринимать: даунтайм, kernel panic, fatal error, ретроспектива и панические атаки. Поэтому важно своевременно отслеживать состояние инфраструктуры и реагировать на предупреждения до того, как они перерастут в серьезные инциденты. По-хорошему раз в месяц кто-то должен садиться и изучать логи на аномалии, если нужно — писать тикеты и ждать завершения технических работ с серверами. Вполне логичная и рабочая схема, в которой сама собой напрашивается автоматизация, комплексный сбор логов, выявление узких мест и уведомления в профильные каналы. Но, как ни крути, нужно оптимизировать процессы и резать косты, да и человек не всегда имеет желание следить за показателями. Выражение «искусственный интеллект всех заменит» заиграло новыми красками. Нет, от естественного интеллекта я не отказываюсь, но конкретно анализом «здоровья» этих железных серверов теперь занимается локальная ИИшница. Сейчас покажу, что удалось запилить, как я прикрутил локальную модель и написал нишевого агента под нужды клиента, чисто для анализа логов с железных серверов.

https://habr.com/ru/companies/selectel/articles/1046409/

#selectel #llamacpp #llm #rtx_4090 #анализ_логов #ubuntu #nvidiasmi

Создаем автономный анализатор логов на локальных ИИ моделях

У моего клиента есть пара железных серверов, которые используются для хранения и раздачи статических файлов. Все бы ничего, но любое оборудование требует внимания и регулярного мониторинга. Со...

Хабр

🤖 withcatai/node-llama-cpp

Executes local LLMs using Node.js bindings for llama.cpp and validates outputs against JSON schemas.

⭐ Stars: 2097
📅 Last Update: Jun 11, 2026

https://github.com/withcatai/node-llama-cpp

#selfhosted #homelab #selfhost #selfhosting #opensource #nodejs #llamacpp

GitHub - withcatai/node-llama-cpp: Run AI models locally on your machine with node.js bindings for llama.cpp. Enforce a JSON schema on the model output on the generation level

Run AI models locally on your machine with node.js bindings for llama.cpp. Enforce a JSON schema on the model output on the generation level - withcatai/node-llama-cpp

GitHub
@grybsh PCIe adds latency vs NVLink so tensor-parallel over two consumer cards is always a tradeoff — but it opens 12B territory without needing a single 24GB card. MTP is a nice throughput bonus. Any idea what tok/s you're hitting? #localAI #llamacpp

Can you run Gemma 4 12B on 2 cheap 8GB GPUs? Yes you can. With MTP too.

It won't win any speed competitions lol.

#localAI #gemma4 #llamacpp

Same week, small update: Run LLMs Locally

Multi-Token-Prediction (MTP) for Gemma-4-E4B and Gemma-4-26B from Unsloth. After 50% from QAT, this brings another 25-90% improvement in token generation speed.

The OpenCode config slide received a small update to reduce prompt sizes with "rtk" and "opencode-tool-search", reducing default prompt size by 60 percent.
Also added logging all prompts to the parameter list.

https://codeberg.org/thbley/talks/raw/branch/main/Run_LLMs_Locally_2026_ThomasBley.pdf

#ai #llm #llamacpp #localai #gemma4 #opencode #mtp #unsloth