Why run LLMs locally?
Why run LLMs locally?
Hoy descubrí que llevaba horas intentando migrar la memoria de Astrid a BIN... cuando Astrid ya usaba BIN desde hace tiempo. 😅
memory.bin seguía ahí, funcionando como una campeona.
A veces programar consiste menos en añadir cosas y más en dejar de perseguir fantasmas.
Commit hecho. 💙🤖
More fun trying to move work to local AI servers....
Running a Qwen 3.5 with some DeepSeek v4 distillation, Flash attention, and MTP (using unsloth). Not as fast as #gemma4, but the quality of its work at 128K is night and day better than gemma 4 on this hardware. The GSD codebase mapper is a brutal test of any local model. While serving me well for some time now for judge models, I think I'm gonna do image generations on this server,
2 more to setup:
i7 9700K, 32GB ram, RTX 5060 TI 16GB
i7 11700K, 64GB ram, Arc Pro B70 32GB and Arc B580 12GB
Создаем автономный анализатор логов на локальных ИИ моделях
У моего клиента есть пара железных серверов, которые используются для хранения и раздачи статических файлов. Все бы ничего, но любое оборудование требует внимания и регулярного мониторинга. Со временем диски, модули памяти и другие компоненты могут выходить из строя. Причем умирают они не сразу, сначала молча сыплются ошибки в логи, а потом уже поздно что-то предпринимать: даунтайм, kernel panic, fatal error, ретроспектива и панические атаки. Поэтому важно своевременно отслеживать состояние инфраструктуры и реагировать на предупреждения до того, как они перерастут в серьезные инциденты. По-хорошему раз в месяц кто-то должен садиться и изучать логи на аномалии, если нужно — писать тикеты и ждать завершения технических работ с серверами. Вполне логичная и рабочая схема, в которой сама собой напрашивается автоматизация, комплексный сбор логов, выявление узких мест и уведомления в профильные каналы. Но, как ни крути, нужно оптимизировать процессы и резать косты, да и человек не всегда имеет желание следить за показателями. Выражение «искусственный интеллект всех заменит» заиграло новыми красками. Нет, от естественного интеллекта я не отказываюсь, но конкретно анализом «здоровья» этих железных серверов теперь занимается локальная ИИшница. Сейчас покажу, что удалось запилить, как я прикрутил локальную модель и написал нишевого агента под нужды клиента, чисто для анализа логов с железных серверов.
https://habr.com/ru/companies/selectel/articles/1046409/
#selectel #llamacpp #llm #rtx_4090 #анализ_логов #ubuntu #nvidiasmi
🤖 withcatai/node-llama-cpp
Executes local LLMs using Node.js bindings for llama.cpp and validates outputs against JSON schemas.
⭐ Stars: 2097
📅 Last Update: Jun 11, 2026
https://github.com/withcatai/node-llama-cpp
#selfhosted #homelab #selfhost #selfhosting #opensource #nodejs #llamacpp

Run AI models locally on your machine with node.js bindings for llama.cpp. Enforce a JSON schema on the model output on the generation level - withcatai/node-llama-cpp
Same week, small update: Run LLMs Locally
Multi-Token-Prediction (MTP) for Gemma-4-E4B and Gemma-4-26B from Unsloth. After 50% from QAT, this brings another 25-90% improvement in token generation speed.
The OpenCode config slide received a small update to reduce prompt sizes with "rtk" and "opencode-tool-search", reducing default prompt size by 60 percent.
Also added logging all prompts to the parameter list.
https://codeberg.org/thbley/talks/raw/branch/main/Run_LLMs_Locally_2026_ThomasBley.pdf
Кто ворует ваш GPU: атаки на открытые LLM-эндпоинты (Ollama, llama.cpp) — и при чём тут кража облачных ключей
Коротко тезис: открытый Ollama — это бесплатный GPU для атакующего , и охота за таким compute давно поставлена на поток. Но за май наша сеть ханипотов (приманки в DE/US/RU) зафиксировала не только воровство инференса, а нечто новое — использование LLM-эндпоинта как SSRF-плацдарма для кражи облачных учёток . Разберём по данным.
https://habr.com/ru/articles/1046207/
#LLM #Ollama #llamacpp #honeypot #SSRF #IMDS #информационная_безопасность #GPU #n8n

Часть 2 серии про атаки на AI-инфраструктуру. В первой части мы поймали на ловушку сканер, который встроил разведку MCP (Model Context Protocol — протокол инструментов для агентов) в обычный...
Локальные LLM на Arch Linux и как увеличить скорость генерации в 20 раз
Приветствую всех читателей Хабра, в этой статье я хочу поделиться своим опытом в запуске локальных LLM, протестировать работоспособность интересных моделей на своем железе, рассказать, как я увеличил скорость генерации на одной из нейросетей в 20 раз (я не преувеличиваю). Но об этом чуть позже, а начну я повествование с описания своего железа.
https://habr.com/ru/articles/1045898/
#arch_linux #llamacpp #ollama #qwen36 #gemma4 #github #huggingface #intel_arc_b580