Hoy descubrí que llevaba horas intentando migrar la memoria de Astrid a BIN... cuando Astrid ya usaba BIN desde hace tiempo. 😅

memory.bin seguía ahí, funcionando como una campeona.

A veces programar consiste menos en añadir cosas y más en dejar de perseguir fantasmas.

Commit hecho. 💙🤖

#Rust #llamacpp #AI #AstridProject

More fun trying to move work to local AI servers....

Running a Qwen 3.5 with some DeepSeek v4 distillation, Flash attention, and MTP (using unsloth). Not as fast as #gemma4, but the quality of its work at 128K is night and day better than gemma 4 on this hardware. The GSD codebase mapper is a brutal test of any local model. While serving me well for some time now for judge models, I think I'm gonna do image generations on this server,

2 more to setup:
i7 9700K, 32GB ram, RTX 5060 TI 16GB
i7 11700K, 64GB ram, Arc Pro B70 32GB and Arc B580 12GB

#localAI #qwen35 #llamacpp

Создаем автономный анализатор логов на локальных ИИ моделях

У моего клиента есть пара железных серверов, которые используются для хранения и раздачи статических файлов. Все бы ничего, но любое оборудование требует внимания и регулярного мониторинга. Со временем диски, модули памяти и другие компоненты могут выходить из строя. Причем умирают они не сразу, сначала молча сыплются ошибки в логи, а потом уже поздно что-то предпринимать: даунтайм, kernel panic, fatal error, ретроспектива и панические атаки. Поэтому важно своевременно отслеживать состояние инфраструктуры и реагировать на предупреждения до того, как они перерастут в серьезные инциденты. По-хорошему раз в месяц кто-то должен садиться и изучать логи на аномалии, если нужно — писать тикеты и ждать завершения технических работ с серверами. Вполне логичная и рабочая схема, в которой сама собой напрашивается автоматизация, комплексный сбор логов, выявление узких мест и уведомления в профильные каналы. Но, как ни крути, нужно оптимизировать процессы и резать косты, да и человек не всегда имеет желание следить за показателями. Выражение «искусственный интеллект всех заменит» заиграло новыми красками. Нет, от естественного интеллекта я не отказываюсь, но конкретно анализом «здоровья» этих железных серверов теперь занимается локальная ИИшница. Сейчас покажу, что удалось запилить, как я прикрутил локальную модель и написал нишевого агента под нужды клиента, чисто для анализа логов с железных серверов.

https://habr.com/ru/companies/selectel/articles/1046409/

#selectel #llamacpp #llm #rtx_4090 #анализ_логов #ubuntu #nvidiasmi

Создаем автономный анализатор логов на локальных ИИ моделях

У моего клиента есть пара железных серверов, которые используются для хранения и раздачи статических файлов. Все бы ничего, но любое оборудование требует внимания и регулярного мониторинга. Со...

Хабр

🤖 withcatai/node-llama-cpp

Executes local LLMs using Node.js bindings for llama.cpp and validates outputs against JSON schemas.

⭐ Stars: 2097
📅 Last Update: Jun 11, 2026

https://github.com/withcatai/node-llama-cpp

#selfhosted #homelab #selfhost #selfhosting #opensource #nodejs #llamacpp

GitHub - withcatai/node-llama-cpp: Run AI models locally on your machine with node.js bindings for llama.cpp. Enforce a JSON schema on the model output on the generation level

Run AI models locally on your machine with node.js bindings for llama.cpp. Enforce a JSON schema on the model output on the generation level - withcatai/node-llama-cpp

GitHub
@grybsh PCIe adds latency vs NVLink so tensor-parallel over two consumer cards is always a tradeoff — but it opens 12B territory without needing a single 24GB card. MTP is a nice throughput bonus. Any idea what tok/s you're hitting? #localAI #llamacpp

Can you run Gemma 4 12B on 2 cheap 8GB GPUs? Yes you can. With MTP too.

It won't win any speed competitions lol.

#localAI #gemma4 #llamacpp

Same week, small update: Run LLMs Locally

Multi-Token-Prediction (MTP) for Gemma-4-E4B and Gemma-4-26B from Unsloth. After 50% from QAT, this brings another 25-90% improvement in token generation speed.

The OpenCode config slide received a small update to reduce prompt sizes with "rtk" and "opencode-tool-search", reducing default prompt size by 60 percent.
Also added logging all prompts to the parameter list.

https://codeberg.org/thbley/talks/raw/branch/main/Run_LLMs_Locally_2026_ThomasBley.pdf

#ai #llm #llamacpp #localai #gemma4 #opencode #mtp #unsloth

Кто ворует ваш GPU: атаки на открытые LLM-эндпоинты (Ollama, llama.cpp) — и при чём тут кража облачных ключей

Коротко тезис: открытый Ollama — это бесплатный GPU для атакующего , и охота за таким compute давно поставлена на поток. Но за май наша сеть ханипотов (приманки в DE/US/RU) зафиксировала не только воровство инференса, а нечто новое — использование LLM-эндпоинта как SSRF-плацдарма для кражи облачных учёток . Разберём по данным.

https://habr.com/ru/articles/1046207/

#LLM #Ollama #llamacpp #honeypot #SSRF #IMDS #информационная_безопасность #GPU #n8n

Кто ворует ваш GPU: атаки на открытые LLM-эндпоинты (Ollama, llama.cpp) — и при чём тут кража облачных ключей

Часть 2 серии про атаки на AI-инфраструктуру. В первой части мы поймали на ловушку сканер, который встроил разведку MCP (Model Context Protocol — протокол инструментов для агентов) в обычный...

Хабр

Локальные LLM на Arch Linux и как увеличить скорость генерации в 20 раз

Приветствую всех читателей Хабра, в этой статье я хочу поделиться своим опытом в запуске локальных LLM, протестировать работоспособность интересных моделей на своем железе, рассказать, как я увеличил скорость генерации на одной из нейросетей в 20 раз (я не преувеличиваю). Но об этом чуть позже, а начну я повествование с описания своего железа.

https://habr.com/ru/articles/1045898/

#arch_linux #llamacpp #ollama #qwen36 #gemma4 #github #huggingface #intel_arc_b580

Локальные LLM на Arch Linux и как увеличить скорость генерации в 20 раз

Приветствую всех читателей Хабра! В этой статье я хочу поделиться своим опытом в запуске локальных LLM, протестировать работоспособность интересных моделей на своем железе, рассказать, как я увеличил...

Хабр