Spent some time setting up an #n8n automation to categorize the digital graveyard of my Telegram “Saved Messages”.

It pulls recent messages and, depending on the type, analyzes images, processes tweets, or reads posts. Results go into #NocoDB as cards, with filtered views for categories and tags.

Everything is self-hosted, using a custom #llamacpp build with Vulkan on an Intel Mac to run Gemma 3 12B.

"Hey, what model you usin'?"

"Oh, you know..."

#llamacpp #opencode

TurboQuant model weight compression now graces #Llamacpp, but only if you speak fluent Metal! 🏋️‍♂️ Meanwhile, everyone else waits for TheTom to bless us with a #CUDA port, assuming he ever emerges from the GitHub labyrinth of Pull Request 45. How many engineers does it take to compress a llama? 🤔
https://github.com/TheTom/llama-cpp-turboquant/pull/45 #TurboQuant #Metal #PullRequest #HackerNews #ngated
feat: TQ4_1S weight compression (Metal only, needs CUDA port) by TheTom · Pull Request #45 · TheTom/llama-cpp-turboquant

Summary TQ3_1S (3-bit, 4.0 BPW) and TQ4_1S (4-bit, 5.0 BPW) weight quantization using WHT rotation + Lloyd-Max centroids V2.1 fused Metal kernel: zero threadgroup memory, cooperative SIMD rotation...

GitHub
feat: TQ4_1S weight compression (Metal only, needs CUDA port) by TheTom · Pull Request #45 · TheTom/llama-cpp-turboquant

Summary TQ3_1S (3-bit, 4.0 BPW) and TQ4_1S (4-bit, 5.0 BPW) weight quantization using WHT rotation + Lloyd-Max centroids V2.1 fused Metal kernel: zero threadgroup memory, cooperative SIMD rotation...

GitHub

Свой ИИ без облаков: практический гайд по llama.cpp + Qwen

В этой статье я расскажу, как установить нейросеть на своё оборудование. Так вы сможете изучить LLM и применить их на практике. При этом ваши данные не будут передаваться в чужие облака, что критично при работе с конфиденциальными данными. И вам не придётся платить за использование какого-либо внешнего сервиса или решать вопросы с заблокированным доступом. Вы установите инструмент для запуска больших языковых моделей llama.cpp и модель нейросети Qwen на компьютер или сервер. Я расскажу об установке в тех случаях, когда в составе оборудования есть Nvidia GPU или интегрированная графика Intel Iris Xe Graphics (актуально для ноутбуков).

https://habr.com/ru/companies/first/articles/1017822/

#нейросети #искусственный_интеллект #llamacpp #qwen #локальный_ии

Свой ИИ без облаков: практический гайд по llama.cpp + Qwen

В этой статье я расскажу, как установить нейросеть на своё оборудование. Так вы сможете изучить LLM и применить их на практике. При этом ваши данные не будут передаваться в чужие облака, что критично...

Хабр

New update for the slides of my talk "Run LLMs Locally": WebGPU

Now models can run completely inside the browser using Transformers.js, Vulkan and WebGPU (slower than llama.cpp, but already usable).

https://codeberg.org/thbley/talks/raw/branch/main/Run_LLMs_Locally_2026_ThomasBley.pdf

#ai #llm #llamacpp #stablediffusion #gptoss #qwen3 #glm #localai #webgpu

don't expect llm generated code to be correct ↓