Локальные LLM на Arch Linux и как увеличить скорость генерации в 20 раз

Приветствую всех читателей Хабра, в этой статье я хочу поделиться своим опытом в запуске локальных LLM, протестировать работоспособность интересных моделей на своем железе, рассказать, как я увеличил скорость генерации на одной из нейросетей в 20 раз (я не преувеличиваю). Но об этом чуть позже, а начну я повествование с описания своего железа.

https://habr.com/ru/articles/1045898/

#arch_linux #llamacpp #ollama #qwen36 #gemma4 #github #huggingface #intel_arc_b580

Локальные LLM на Arch Linux и как увеличить скорость генерации в 20 раз

Приветствую всех читателей Хабра! В этой статье я хочу поделиться своим опытом в запуске локальных LLM, протестировать работоспособность интересных моделей на своем железе, рассказать, как я увеличил...

Хабр

Claude Code с локальными Qwen3.6 на AMD Strix Halo: полное руководство по настройке

Всем привет! Продолжаю тему локальных LLM. В предыдущей статье мы сравнивали железо для инференса — Nvidia DGX Spark, Mac Studio M3 Ultra и Strix Halo. И как можно было догадаться, я остановился именно на последнем. Теперь, когда железка есть, встает вопрос: а как из неё извлечь практическую пользу? Claude code с оригинальными LLM - это, конечно, замечательно. Но это стоят денег, да и свой код в чужие дата-центры не всегда правильно лить. Плюс за всякое неосторожное движение можно попасть в бан, рискуя потерять все свои наработки. Одно из решений: Claude Code во free mode с локальными моделями . Anthropic позволяет заменить свои модели на любые с совместимым API. То есть, на что угодно — даже на модель, крутящуюся прямо у вас на компьютере. В этой статье я расскажу, как всё это настроить на Strix Halo — от загрузки моделей до первого запроса к Claude Code.

https://habr.com/ru/articles/1038774/

#claudecode #strix_halo #ииагенты #программирование #antropic #qwen36 #локальный_ии #llamacpp #vibecoding

Claude Code с локальными Qwen3.6 на AMD Strix Halo: полное руководство по настройке

Введение Всем привет! Продолжаю тему предыдущей статьи . В ней сравнивалось железо для локального инференса — Nvidia DGX Spark, Mac Studio M3 Ultra и Strix Halo. И как можно было догадаться,...

Хабр

Un dubte, espere que el fedivers ilumine el meu camí...

Quina interficie gràfica utilitzeu per a trastejar amb la IA local: jan.ai, anythingllm, open-webui...??.

S'agraeix qualsevol idea.

#llm #localai #dubtes #llamacpp

RT @osanseviero: llama.cpp hat die Videoeingabeunterstützung hinzugefügt 👀

mehr auf Arint.info

#AITools #Gemma4 #llamacpp #MachineLearning #OpenSource #VideoAI #arint_info

https://x.com/osanseviero/status/2063985470489448887#m

Arint - SEO+KI (@[email protected])

<p>RT @osanseviero: llama.cpp hat die Videoeingabeunterstützung hinzugefügt 👀</p> <p><a href="https://arint.info/@Arint/116718172880879214">mehr</a> auf <a href="https://arint.info/">Arint.info</a></p> <p>#AITools #Gemma4 #llamacpp #MachineLearning #OpenSource #VideoAI #arint_info</p> <p><a href="https://x.com/osanseviero/status/2063985470489448887#m">https://x.com/osanseviero/status/2063985470489448887#m</a></p>

Mastodon Glitch Edition

New week, new slides and small updates: Run LLMs Locally

Added an example to create Mermaid diagrams in llama.cpp UI.
Added QAT (Quantization-Aware Training) variants of Gemma 4 which are 50 percent faster in token generation with my local setup.
Added definitions for Deterministic and Probabilistic results.

https://codeberg.org/thbley/talks/raw/branch/main/Run_LLMs_Locally_2026_ThomasBley.pdf

#ai #llm #llamacpp #wllama #stablediffusion #qwen3 #glm #localai #gemma4 #webgpu #opencode #mtp #webassembly #mellum2

RT @NeoAIForecast: Gemma 4 12B Q4 im Vergleich zu QAT Q4 auf einer AMD Radeon RX 7800 XT unter Verwendung von llama.cpp + ROCm. Der Durchschnittswert aus 5 Läufen zeigt für UD-Q4KXL: 6,85 GiB VRAM, 1274 Prompt-Token/s, 42,3 generierte Token/s und 75,0 % (123/164) bei HumanEval. Für QAT UD-Q4KXL: 6,24 GiB VRAM, 1395 Prompt-Token/s, 52,9 generierte Token/s und 90,85 % (149/164) bei HumanEval. Das QAT-Modell gewinnt in allen Kategorien: 8,9 % kleiner, 25 % schnellere Generierung und +15,85 Punkte bei HumanEval. Die größte Überraschung ist nicht die Geschwindigkeits- oder Größeneinsparung, sondern dass das QAT-quantisierte Modell bei geringerem VRAM-Verbrauch eine deutlich bessere Leistung bei Programmieraufgaben liefert.

mehr auf Arint.info

#AMD #Gemma4 #llamacpp #QAT #Quantisierung #ROCm #arint_info

https://x.com/NeoAIForecast/status/2063182829010530757#m

Arint - SEO+KI (@[email protected])

<p>RT @NeoAIForecast: Gemma 4 12B Q4 im Vergleich zu QAT Q4 auf einer AMD Radeon RX 7800 XT unter Verwendung von llama.cpp + ROCm. Der Durchschnittswert aus 5 Läufen zeigt für UD-Q4KXL: 6,85 GiB VRAM, 1274 Prompt-Token/s, 42,3 generierte Token/s und 75,0 % (123/164) bei HumanEval. Für QAT UD-Q4KXL: 6,24 GiB VRAM, 1395 Prompt-Token/s, 52,9 generierte Token/s und 90,85 % (149/164) bei HumanEval. Das QAT-Modell gewinnt in allen Kategorien: 8,9 % kleiner, 25 % schnellere Generierung und +15,85 Punkte bei HumanEval. Die größte Überraschung ist nicht die Geschwindigkeits- oder Größeneinsparung, sondern dass das QAT-quantisierte Modell bei geringerem VRAM-Verbrauch eine deutlich bessere Leistung bei Programmieraufgaben liefert.</p> <p><a href="https://arint.info/@Arint/116715326467310599">mehr</a> auf <a href="https://arint.info/">Arint.info</a></p> <p>#AMD #Gemma4 #llamacpp #QAT #Quantisierung #ROCm #arint_info</p> <p><a href="https://x.com/NeoAIForecast/status/2063182829010530757#m">https://x.com/NeoAIForecast/status/2063182829010530757#m</a></p>

Mastodon Glitch Edition

RE: https://mastodon.social/@404mediaco/116709949833070327

Making people addicted is always been the proprietary software industry strategy (think GitHub).

Getting addicted is is the biggest risk I see with using coding agents you cannot effectively run on your own premises.

Better start early with learning ownable components like llama.cpp or Ferrum

#LLM #FreeSoftware #LocalInference #llamacpp #Ferrum

RT @osanseviero: Gemma 4 MTP wurde offiziell in llama.cpp integriert. Das bedeutet, dass du Gemma 4 QAT + MTP für eine leichte und superschnelle Setup nutzen kannst. Ich bin gespannt, was die Community damit bauen wird.

mehr auf Arint.info

#AI #Gemma4 #llamacpp #MachineLearning #OpenSource #TechNews #arint_info

https://x.com/osanseviero/status/2063676865441665426#m

Arint - SEO+KI (@[email protected])

<p>RT @osanseviero: Gemma 4 MTP wurde offiziell in llama.cpp integriert. Das bedeutet, dass du Gemma 4 QAT + MTP für eine leichte und superschnelle Setup nutzen kannst. Ich bin gespannt, was die Community damit bauen wird.</p> <p><a href="https://arint.info/@Arint/116712505511503520">mehr</a> auf <a href="https://arint.info/">Arint.info</a></p> <p>#AI #Gemma4 #llamacpp #MachineLearning #OpenSource #TechNews #arint_info</p> <p><a href="https://x.com/osanseviero/status/2063676865441665426#m">https://x.com/osanseviero/status/2063676865441665426#m</a></p>

Mastodon Glitch Edition

Специалист против универсала: GLM‑OCR читает таблицы, которые Gemma 4 выдумывала

Просишь локальную модель оцифровать таблицу с картинки — а она часть чисел тихо выдумывает. Да так гладко, что беглым взглядом не заметишь. Большая Gemma на мыльном скрине сочинила целую строку зарплат, а крошечная GLM-OCR на 0.9B ту же строку прочитала верно. Собрал из двух моделей один пайплайн и разобрался, где кому верить.

https://habr.com/ru/articles/1044522/

#GLMOCR #OCR #Gemma_4 #llamacpp #локальные_LLM #мультимодальные_модели #извлечение_данных_из_таблиц #распознавание_документов #пайплайн_моделей #MacBook_M3

Специалист против универсала: GLM‑OCR читает таблицы, которые Gemma 4 выдумывала

В первой части локальная Gemma 4 на мыльной таблице сочинила целую строку зарплат, а на гигантской — насыпала гладких круглых тысяч вместо реальных чисел....

Хабр

Локальная Gemma 4 на MacBook читает графики и таблицы — и врёт красивее, чем говорит правду

MacBook M3, 16 ГБ, никакого облака. Поставил свежую Gemma 4, написал инструмент: кидаешь картинку с графиком или таблицей — получаешь CSV. Три кейса из семи — идеально. На остальных модель начала врать, причём аккуратнее, чем говорила правду: вместо рваных реальных чисел подсовывала гладкие выдуманные. Разобрал по шагам — сетап на маке, грабли с llama.cpp, сам инструмент — и собрал карту, где локальному зрению можно верить, а где оно тихо галлюцинирует

https://habr.com/ru/articles/1044400/

#Gemma_4 #llamacpp #локальные_LLM #мультимодальные_модели #OCR #извлечение_данных_из_графиков #visionмодели #MacBook_M3 #GGUF #визуализация_данных

Локальная Gemma 4 на MacBook читает графики и таблицы — и врёт красивее, чем говорит правду

MacBook M3, 16 гигабайт, никакого облака. Свежая Gemma 4 берёт с картинки график и отдаёт CSV. Первые три кейса — идеально. На четвёртом модель начала врать. И врать...

Хабр