New week, new slides: Run LLMs Locally

Now including multi-token prediction using Qwen3.6 35B-A3B with Nextn quantization. Also speech recognition using Qwen-3-ASR is now working directly with Llama.cpp and included in the slides.

https://codeberg.org/thbley/talks/raw/branch/main/Run_LLMs_Locally_2026_ThomasBley.pdf

#ai #llm #llamacpp #stablediffusion #qwen3 #glm #localai #gemma4 #webgpu #opencode #mtp

Qwen3.6 27B MTP весит на +0.3 Гб больше, а даёт ускорение в ~2 раза. С 60 t/s до 130 t/s без потерь. Что такое MTP

В llama.cpp добавили поддержку MTP Qwen3.6. Дополнительные слои Multi-Token Prediction позволяют сгенерировать сразу несколько токенов за 1 проход, что ускоряет генерацию в 1.5-2 раза. Качество при этом остается lossless. Для моделей, которые не имеют встроенного MTP, есть альтернативы в лице EAGLE-3 и DFlash.

https://habr.com/ru/articles/1036120/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1036120

#искусственный_интеллект #mtp #llamacpp #qwen #qwen36

Qwen3.6 27B MTP весит на +0.3 Гб больше, а даёт ускорение в ~2 раза. С 60 t/s до 130 t/s без потерь. Что такое MTP

В llama.cpp добавили поддержку MTP Qwen3.6. Дополнительные слои Multi-Token Prediction позволяют сгенерировать сразу несколько токенов за 1 проход, что ускоряет генерацию в 1.5-2 раза. Качество при...

Хабр

Qwen3.6 MTP весит на 0.3 Гб больше, а даёт ускорение в ~2 раза. С 60 t/s до 130 t/s для Qwen3.6 27B без искажений

В llama.cpp добавили поддержку MTP Qwen3.6. Дополнительные слои Multi-Token Prediction позволяют сгенерировать сразу несколько токенов за 1 проход, что ускоряет генерацию в 1.5-2 раза. Качество при этом остается lossless. Для моделей, которые не имеют встроенного MTP, есть альтернативы в лице EAGLE-3 и DFlash.

https://habr.com/ru/articles/1036120/

#искусственный_интеллект #mtp #llamacpp #qwen #qwen36

Qwen3.6 27B MTP весит на +0.3 Гб больше, а даёт ускорение в ~2 раза. С 60 t/s до 130 t/s без потерь. Что такое MTP

В llama.cpp добавили поддержку MTP Qwen3.6. Дополнительные слои Multi-Token Prediction позволяют сгенерировать сразу несколько токенов за 1 проход, что ускоряет генерацию в 1.5-2 раза. Качество при...

Хабр

RT @danielhanchen: Qwen3.6 MTP Unsloth GGUFs laufen jetzt 1,8x schneller, ein Anstieg von 1,4x vor nur zwei Tagen!

mehr auf Arint.info

#GGUF #llamacpp #MTP #Qwen3 #SpeculativeDecoding #Unsloth #arint_info

https://x.com/danielhanchen/status/2055274688025378854#m

Arint - SEO+KI (@[email protected])

<p>RT @danielhanchen: Qwen3.6 MTP Unsloth GGUFs laufen jetzt 1,8x schneller, ein Anstieg von 1,4x vor nur zwei Tagen!</p> <p><a href="https://arint.info/@Arint/116587929399884850">mehr</a> auf <a href="https://arint.info/">Arint.info</a></p> <p>#GGUF #llamacpp #MTP #Qwen3 #SpeculativeDecoding #Unsloth #arint_info</p> <p><a href="https://x.com/danielhanchen/status/2055274688025378854#m">https://x.com/danielhanchen/status/2055274688025378854#m</a></p>

Mastodon Glitch Edition
Arint - SEO+KI (@[email protected])

<p>RT @nash_su: Mac-Inferenzgeschwindigkeit verdoppelt 🚀</p> <p><a href="https://arint.info/@Arint/116585091328332976">mehr</a> auf <a href="https://arint.info/">Arint.info</a></p> <p>#AppleSilicon #Inferenz #KI #MLX #MTP #Qwen #arint_info</p> <p><a href="https://x.com/nash_su/status/2055508599909306570#m">https://x.com/nash_su/status/2055508599909306570#m</a></p>

Mastodon Glitch Edition
Fast Android File Access via SSHFS over Wi-Fi or USB (MTP Alternative): https://emanuelduss.ch/posts/fast-android-file-access-via-sshfs/ #android #mtp #sshfs
Fast Android File Access via SSHFS over Wi-Fi or USB (MTP Alternative)

Introduction The MPT protocol used to access files via USB on your phone is not that efficient. This post shows you an alternative to MTP for accessing your files on your mobile phone. It works by installilng an SSH server on your phone using Termux 1 and then use it to transfer files from and to your phone. This can be done either via the Wi-Fi network or by tunneling the SSH traffic through the USB cable using adb.

emanuelduss.ch

RT @danielhanchen: Qwen3.6 MTP Unsloth GGUFs laufen jetzt 1,8x schneller, eine Steigerung von 1,4x vor nur zwei Tagen!

mehr auf Arint.info

#GGUF #llamacpp #MTP #Qwen3 #SpeculativeDecoding #Unsloth #arint_info

https://x.com/danielhanchen/status/2055274688025378854#m

Arint - SEO+KI (@[email protected])

<p>RT @danielhanchen: Qwen3.6 MTP Unsloth GGUFs laufen jetzt 1,8x schneller, eine Steigerung von 1,4x vor nur zwei Tagen!</p> <p><a href="https://arint.info/@Arint/116579426735022973">mehr</a> auf <a href="https://arint.info/">Arint.info</a></p> <p>#GGUF #llamacpp #MTP #Qwen3 #SpeculativeDecoding #Unsloth #arint_info</p> <p><a href="https://x.com/danielhanchen/status/2055274688025378854#m">https://x.com/danielhanchen/status/2055274688025378854#m</a></p>

Mastodon Glitch Edition

left curve dev (@leftcurvedev_)

Qwen3.6 27B MTP 모델을 기존 설정과 비교해 약 30% 더 빠른 성능을 확인했다는 테스트 결과다. llama.cpp의 MTP PR 브랜치와 Unsloth의 새 GGUF를 사용했으며, draft-mtp 옵션으로 추론 속도 향상을 시연했다.

https://x.com/leftcurvedev_/status/2054861291924213881

#qwen #llamacpp #unsloth #gguf #mtp

left curve dev (@leftcurvedev_) on X

Here are my results for Qwen3.6 27B MTP model vs base setup: ~30% extra speed 🔥 Used the specific MTP PR branch and downloaded the new GGUF from @UnslothAI git clone -b mtp-clean https://t.co/anD61S6gjm --spec-type draft-mtp --spec-draft-n-max 2 https://t.co/dW8ziUcrAo

X (formerly Twitter)

David Hendrickson (@TeksEdge)

Unsloth-Qwen3.6-27B MTP를 단일 RTX-5090에서 돌렸을 때의 속도 향상이 @UnslothAI의 데이터와 비슷하게 나와, 약 1.5배 성능 개선이 확인됐다는 내용이다. 실제 하드웨어 환경에서 MTP 적용 효과를 검증한 사례로 볼 수 있다.

https://x.com/TeksEdge/status/2054587871907180909

#unsloth #qwen3.6 #rtx5090 #mtp #llm

David Hendrickson (@TeksEdge) on X

It's good to see the speedups I saw on a single RTX-5090 for Unlsoth-Qwen3.6-27B MTP are in line with @UnslothAI's own data. I saw a ~1.5x speedup, but it seems I might be able to get a little more.

X (formerly Twitter)

stevibe (@stevibe)

UnslothAI의 Qwen3.6 MTP 변형을 DGX Spark(UD-Q6_K_XL)에서 테스트한 결과가 공유됐다. 27B 모델은 8.1 t/s에서 18.65 t/s로 2.3배 빨라졌고, 35B A3B 모델도 56.91 t/s에서 66.52 t/s로 향상됐다. MTP만으로도 27B 모델 처리량이 두 배 이상 증가해 큰 성능 개선을 보여준다.

https://x.com/stevibe/status/2054611290434527412

#unsloth #qwen3.6 #mtp #dgxspark #llm

stevibe (@stevibe) on X

2.3x faster. Ran @UnslothAI Qwen3.6 MTP variants on a DGX Spark (UD-Q6_K_XL): > 27B → 27B MTP: 8.1 → 18.65 t/s (2.3x faster) > 35B A3B → 35B A3B MTP: 56.91 → 66.52 t/s (+17%) The 27B dense model more than doubled throughput from MTP alone. Free speed is free speed.

X (formerly Twitter)