New week, new slides: Run LLMs Locally

Now including multi-token prediction using Qwen3.6 35B-A3B with Nextn quantization. Also speech recognition using Qwen-3-ASR is now working directly with Llama.cpp and included in the slides.

https://codeberg.org/thbley/talks/raw/branch/main/Run_LLMs_Locally_2026_ThomasBley.pdf

#ai #llm #llamacpp #stablediffusion #qwen3 #glm #localai #gemma4 #webgpu #opencode #mtp

Qwen3.6 27B MTP весит на +0.3 Гб больше, а даёт ускорение в ~2 раза. С 60 t/s до 130 t/s без потерь. Что такое MTP

В llama.cpp добавили поддержку MTP Qwen3.6. Дополнительные слои Multi-Token Prediction позволяют сгенерировать сразу несколько токенов за 1 проход, что ускоряет генерацию в 1.5-2 раза. Качество при этом остается lossless. Для моделей, которые не имеют встроенного MTP, есть альтернативы в лице EAGLE-3 и DFlash.

https://habr.com/ru/articles/1036120/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1036120

#искусственный_интеллект #mtp #llamacpp #qwen #qwen36

Qwen3.6 27B MTP весит на +0.3 Гб больше, а даёт ускорение в ~2 раза. С 60 t/s до 130 t/s без потерь. Что такое MTP

В llama.cpp добавили поддержку MTP Qwen3.6. Дополнительные слои Multi-Token Prediction позволяют сгенерировать сразу несколько токенов за 1 проход, что ускоряет генерацию в 1.5-2 раза. Качество при...

Хабр

RT @rumgewieselt: Die llama.cpp-Community testet gerade erst diesen PR! 😆

mehr auf Arint.info

#AI #GGML #llama #llamacpp #MachineLearning #OpenSource #arint_info

https://x.com/rumgewieselt/status/2055672028774981804#m

Arint - SEO+KI (@[email protected])

<p>RT @rumgewieselt: Die llama.cpp-Community testet gerade erst diesen PR! 😆</p> <p><a href="https://arint.info/@Arint/116593587905307753">mehr</a> auf <a href="https://arint.info/">Arint.info</a></p> <p>#AI #GGML #llama #llamacpp #MachineLearning #OpenSource #arint_info</p> <p><a href="https://x.com/rumgewieselt/status/2055672028774981804#m">https://x.com/rumgewieselt/status/2055672028774981804#m</a></p>

Mastodon Glitch Edition

Qwen3.6 MTP весит на 0.3 Гб больше, а даёт ускорение в ~2 раза. С 60 t/s до 130 t/s для Qwen3.6 27B без искажений

В llama.cpp добавили поддержку MTP Qwen3.6. Дополнительные слои Multi-Token Prediction позволяют сгенерировать сразу несколько токенов за 1 проход, что ускоряет генерацию в 1.5-2 раза. Качество при этом остается lossless. Для моделей, которые не имеют встроенного MTP, есть альтернативы в лице EAGLE-3 и DFlash.

https://habr.com/ru/articles/1036120/

#искусственный_интеллект #mtp #llamacpp #qwen #qwen36

Qwen3.6 27B MTP весит на +0.3 Гб больше, а даёт ускорение в ~2 раза. С 60 t/s до 130 t/s без потерь. Что такое MTP

В llama.cpp добавили поддержку MTP Qwen3.6. Дополнительные слои Multi-Token Prediction позволяют сгенерировать сразу несколько токенов за 1 проход, что ускоряет генерацию в 1.5-2 раза. Качество при...

Хабр

TurboQuant Sessiz Çökme Sorunu ve OpenSSL 3 Çözümü

Yerel yapay zeka modellerinde 128K gibi devasa context pencerelerine yelken açmak isterken llama-server.exe'nin hiçbir hata vermeden anında kapanmasıyla karşılaştım. TheTom/llama-cpp-turboquant Windows CUDA 12.4 paketinde unutulan OpenSSL DLL'lerini (STATUS_DLL_NOT_FOUND) ve winget ile LTS sürümünü kurarak bu can sıkıcı problemi kendi sistemimde nasıl çözdüğümü anlattım.

https://yuceltoluyag.github.io/turboquant-sessiz-cokme-cozumu/

#ai #llamacpp #turboquant #openssl #windows

TurboQuant Sessiz Çökme Sorunu ve Çözümü

TurboQuant kullanırken llama-server sessizce mi kapanıyor? Meğer OpenSSL dosyaları unutulmuş. İşte o sinir bozucu sorunun basit çözümü.

Ortaya Karışık

Ivan Fioravanti ᯅ (@ivanfioravanti)

llama.cpp 슈퍼 저장소에 이슈를 등록했고, M5 Max에서 일부 eval이 M3 Ultra에서는 정상인데 실패한다고 상세 재현 절차를 함께 공유했다. Apple 실리콘에서의 추론 일관성 문제를 추적하는 실무 디버깅 맥락의 트윗이다.

https://x.com/ivanfioravanti/status/2056026186329821480

#llamacpp #issue #apple #evals #inference

Ivan Fioravanti ᯅ (@ivanfioravanti) on X

Issue created on the super llamacpp repo. @ggerganov I tried to add as much details as possible and even repro script. I hope I did it well this time 😉 The problem is that on M5 Max some evals are failing while they are ok on M3 Ultra. https://t.co/rFCjw2COZb

X (formerly Twitter)

Ivan Fioravanti ᯅ (@ivanfioravanti)

llama.cpp에서 Apple M5 환경의 추론/평가가 M3 Ultra나 M5 Max와 다르게 테스트 실패를 보이는 사례. 동일한 서버 설정과 temperature 0 조건에서도 재현되며, Apple GPU 계열에서의 안정성·일관성 문제를 시사하는 디버깅 이슈다.

https://x.com/ivanfioravanti/status/2055997951470649812

#llamacpp #applegpu #inference #debugging #qwen

Ivan Fioravanti ᯅ (@ivanfioravanti) on X

Llamacpp (9190) Inference on M5 (applegpu_g17s) <> M4 (applegpu_g16s) Here M5 run fails a test. Again temperature 0 and same server and evals used on M3 Ultra and M5 Max. llama-server -hf unsloth/Qwen3.6-35B-A3B-GGUF:UD-Q4_K_XL -ngl 99 -fa 1 -b 2048 -ub 2048 --cache-type-k

X (formerly Twitter)

RT @danielhanchen: Qwen3.6 MTP Unsloth GGUFs laufen jetzt 1,8x schneller, ein Anstieg von 1,4x vor nur zwei Tagen!

mehr auf Arint.info

#GGUF #llamacpp #MTP #Qwen3 #SpeculativeDecoding #Unsloth #arint_info

https://x.com/danielhanchen/status/2055274688025378854#m

Arint - SEO+KI (@[email protected])

<p>RT @danielhanchen: Qwen3.6 MTP Unsloth GGUFs laufen jetzt 1,8x schneller, ein Anstieg von 1,4x vor nur zwei Tagen!</p> <p><a href="https://arint.info/@Arint/116587929399884850">mehr</a> auf <a href="https://arint.info/">Arint.info</a></p> <p>#GGUF #llamacpp #MTP #Qwen3 #SpeculativeDecoding #Unsloth #arint_info</p> <p><a href="https://x.com/danielhanchen/status/2055274688025378854#m">https://x.com/danielhanchen/status/2055274688025378854#m</a></p>

Mastodon Glitch Edition

RT @rumgewieselt: TRANSLASION: Die Community von llama.cpp testet gerade diesen PR! 😆 ER IST GEMERGED!!! https://github.com/ggml-org/llama.cpp/pull/22673

mehr auf Arint.info

#llamacpp #llamacppcommunity #arint_info

https://x.com/rumgewieselt/status/2055672028774981804#m

llama + spec: MTP Support by am17an · Pull Request #22673 · ggml-org/llama.cpp

Overview This PR adds support for MTP (Multi Token Prediction) heads. I tested this on Qwen3.6 27B and Qwen3.6 35BA3B but in principle it should work for any MTP model. I've posted the detaile...

GitHub

Joplin as autotext library or custom prompt library for AI chat

https://friendica.tf-translate.net/display/cafe12d9-176a-0861-aca4-d9f833762554

Joplin as autotext library or custom prompt library for AI chat

I wrote an AutoHotkey v2 script that enables using Joplin as an autotext library on Windows. Press a hotkey, browse Joplin notes from a customized top-level ...