RTX 5080 + RTX 3090 Setup: 80+ Tok/s on Qwen 3.6 27B Q8 - iMil.net

Dual GPU setup: run Qwen 3.6 27B at a Q8 quantization at 80+ tokens/sec with 39GB total VRAM

之前用 #Qwen36 Plus 都試過可以自動化做網頁應用的開發,它會自己開啟Google Chrome,通過 Chrome devtools MCP,因為有視覺能力所以都可以自己做開發和研究,唯一的問題是GUI有太多坑是AI模仿不到的,例如我之前失敗的是打中文字輸入法有問題,還有無故會失去打字的焦點

Локальные LLM на Arch Linux и как увеличить скорость генерации в 20 раз

Приветствую всех читателей Хабра, в этой статье я хочу поделиться своим опытом в запуске локальных LLM, протестировать работоспособность интересных моделей на своем железе, рассказать, как я увеличил скорость генерации на одной из нейросетей в 20 раз (я не преувеличиваю). Но об этом чуть позже, а начну я повествование с описания своего железа.

https://habr.com/ru/articles/1045898/

#arch_linux #llamacpp #ollama #qwen36 #gemma4 #github #huggingface #intel_arc_b580

Локальные LLM на Arch Linux и как увеличить скорость генерации в 20 раз

Приветствую всех читателей Хабра! В этой статье я хочу поделиться своим опытом в запуске локальных LLM, протестировать работоспособность интересных моделей на своем железе, рассказать, как я увеличил...

Хабр

Claude Code с локальными Qwen3.6 на AMD Strix Halo: полное руководство по настройке

Всем привет! Продолжаю тему локальных LLM. В предыдущей статье мы сравнивали железо для инференса — Nvidia DGX Spark, Mac Studio M3 Ultra и Strix Halo. И как можно было догадаться, я остановился именно на последнем. Теперь, когда железка есть, встает вопрос: а как из неё извлечь практическую пользу? Claude code с оригинальными LLM - это, конечно, замечательно. Но это стоят денег, да и свой код в чужие дата-центры не всегда правильно лить. Плюс за всякое неосторожное движение можно попасть в бан, рискуя потерять все свои наработки. Одно из решений: Claude Code во free mode с локальными моделями . Anthropic позволяет заменить свои модели на любые с совместимым API. То есть, на что угодно — даже на модель, крутящуюся прямо у вас на компьютере. В этой статье я расскажу, как всё это настроить на Strix Halo — от загрузки моделей до первого запроса к Claude Code.

https://habr.com/ru/articles/1038774/

#claudecode #strix_halo #ииагенты #программирование #antropic #qwen36 #локальный_ии #llamacpp #vibecoding

Claude Code с локальными Qwen3.6 на AMD Strix Halo: полное руководство по настройке

Введение Всем привет! Продолжаю тему предыдущей статьи . В ней сравнивалось железо для локального инференса — Nvidia DGX Spark, Mac Studio M3 Ultra и Strix Halo. И как можно было догадаться,...

Хабр

Tesla v100 SXM2 X2 32GB total

В этом материале я разбираю практический кейс: развёртывание Qwen3.6-27B на двух Tesla V100-SXM2-16GB под управлением автономного агента Hermes от Nous Research. Карты подключены к потребительской платформе через адаптеры SXM2→PCIe — конфигурация, которую несложно собрать дома, но которая накладывает жёсткие ограничения на доступную видеопамять и межкарточную пропускную способность.

https://habr.com/ru/articles/1043956/

#tesla_v100 #v100 #SXM2 #qwen #qwen36 #2017

Tesla v100 SXM2  X2 32GB total

Можно ли запустить современную 27-миллиардную модель и полноценного автономного агента на паре серверных ускорителей 2017 года, установленных в обычный десктоп через переходники? Короткий ответ — да,...

Хабр

RT @ChujieZheng: For Qwen3.7-Max, we have invested far more compute into RL training than ever before. Its top-tier AA score confirms the resulting general and agentic capabilities. This is just the start. We will firmly push forward RL scaling to build more powerful Qwen models. Stay tuned! Artificial Analysis (@ArtificialAnlys) Alibaba’s new Qwen3.7 Max model scores 56.6 on the Artificial Analysis Intelligence Index, 4.8 points higher than Qwen3.6 Max Preview (51.8). While Alibaba still trails models from OpenAI, Anthropic and Google, Qwen3.7 Max is the closest they have been to the frontier Qwen3.7 Max is @Alibaba_Qwen's latest proprietary flagship, scoring 56.6 on the Intelligence Index, a 4.8 point gain over Qwen3.6 Max Preview (51.8) released in April. Qwen3.7 Max continues Alibaba's pattern, in place since Qwen2.5 Max (January 2025), of releasing Max and Plus models as closed weights while the rest of the Qwen line remains open weights. The leading open weights Qwen on the Intelligence Index is Qwen3.6 27B (Reasoning, 45.8) released in April 2026, and the leading open weights MoE Qwen is Qwen3.5 397B A17B (Reasoning, 45.0) released in February 2026 Key takeaways for the reasoning variant: ➤ The Intelligence Index gains over Qwen3.6 Max Preview are concentrated in scientific reasoning, agentic capability and coding. CritPt +9.7 p.p (3.7% to 13.4%), HLE +9.2 p.p (28.9% to 38.1%), TerminalBench Hard +6.9 p.p (43.9% to 50.8%) and GDPval-AA +42 Elo (1504 to 1546). Scores on other benchmarks in the Intelligence Index are flat compared to Qwen3.6 Max Preview ➤ A significant share of the Int…

mehr auf Arint.info

#Alibaba #Anthropic #API #Claude #DeepSeek #Gemini #Google #GPT5 #nitter #OpenAI #Qwen #Qwen25 #Qwen35 #Qwen36 #Qwen37 #rest #arint_info

https://x.com/ChujieZheng/status/2057403166589956518#m

Arint - SEO+KI (@[email protected])

<p>RT @ChujieZheng: For Qwen3.7-Max, we have invested far more compute into RL training than ever before. Its top-tier AA score confirms the resulting general and agentic capabilities. This is just the start. We will firmly push forward RL scaling to build more powerful Qwen models. Stay tuned! Artificial Analysis (@ArtificialAnlys) Alibaba’s new Qwen3.7 Max model scores 56.6 on the Artificial Analysis Intelligence Index, 4.8 points higher than Qwen3.6 Max Preview (51.8). While Alibaba still trails models from OpenAI, Anthropic and Google, Qwen3.7 Max is the closest they have been to the frontier Qwen3.7 Max is @Alibaba_Qwen's latest proprietary flagship, scoring 56.6 on the Intelligence Index, a 4.8 point gain over Qwen3.6 Max Preview (51.8) released in April. Qwen3.7 Max continues Alibaba's pattern, in place since Qwen2.5 Max (January 2025), of releasing Max and Plus models as closed weights while the rest of the Qwen line remains open weights. The leading open weights Qwen on the Intelligence Index is Qwen3.6 27B (Reasoning, 45.8) released in April 2026, and the leading open weights MoE Qwen is Qwen3.5 397B A17B (Reasoning, 45.0) released in February 2026 Key takeaways for the reasoning variant: ➤ The Intelligence Index gains over Qwen3.6 Max Preview are concentrated in scientific reasoning, agentic capability and coding. CritPt +9.7 p.p (3.7% to 13.4%), HLE +9.2 p.p (28.9% to 38.1%), TerminalBench Hard +6.9 p.p (43.9% to 50.8%) and GDPval-AA +42 Elo (1504 to 1546). Scores on other benchmarks in the Intelligence Index are flat compared to Qwen3.6 Max Preview ➤ A significant share of the Int…</p> <p><a href="https://arint.info/@Arint/116623310942625420">mehr</a> auf <a href="https://arint.info/">Arint.info</a></p> <p>#Alibaba #Anthropic #API #Claude #DeepSeek #Gemini #Google #GPT5 #nitter #OpenAI #Qwen #Qwen25 #Qwen35 #Qwen36 #Qwen37 #rest #arint_info</p> <p><a href="https://x.com/ChujieZheng/status/2057403166589956518#m">https://x.com/ChujieZheng/status/2057403166589956518#m</a></p>

Mastodon Glitch Edition

RT @ChujieZheng: For Qwen3.7-Max, we have invested far more compute into RL training than ever before. Its top-tier AA score confirms the resulting general and agentic capabilities. This is just the start. We will firmly push forward RL scaling to build more powerful Qwen models. Stay tuned! Artificial Analysis (@ArtificialAnlys) Alibaba’s new Qwen3.7 Max model scores 56.6 on the Artificial Analysis Intelligence Index, 4.8 points higher than Qwen3.6 Max Preview (51.8). While Alibaba still trails models from OpenAI, Anthropic and Google, Qwen3.7 Max is the closest they have been to the frontier Qwen3.7 Max is @Alibaba_Qwen's latest proprietary flagship, scoring 56.6 on the Intelligence Index, a 4.8 point gain over Qwen3.6 Max Preview (51.8) released in April. Qwen3.7 Max continues Alibaba's pattern, in place since Qwen2.5 Max (January 2025), of releasing Max and Plus models as closed weights while the rest of the Qwen line remains open weights. The leading open weights Qwen on the Intelligence Index is Qwen3.6 27B (Reasoning, 45.8) released in April 2026, and the leading open weights MoE Qwen is Qwen3.5 397B A17B (Reasoning, 45.0) released in February 2026 Key takeaways for the reasoning variant: ➤ The Intelligence Index gains over Qwen3.6 Max Preview are concentrated in scientific reasoning, agentic capability and coding. CritPt +9.7 p.p (3.7% to 13.4%), HLE +9.2 p.p (28.9% to 38.1%), TerminalBench Hard +6.9 p.p (43.9% to 50.8%) and GDPval-AA +42 Elo (1504 to 1546). Scores on other benchmarks in the Intelligence Index are flat compared to Qwen3.6 Max Preview ➤ A significant share of the Int…

mehr auf Arint.info

#Alibaba #Anthropic #API #Claude #DeepSeek #Gemini #Google #GPT5 #nitter #OpenAI #Qwen #Qwen25 #Qwen35 #Qwen36 #Qwen37 #rest #arint_info

https://x.com/ChujieZheng/status/2057403166589956518#m

Arint - SEO+KI (@[email protected])

<p>RT @ChujieZheng: For Qwen3.7-Max, we have invested far more compute into RL training than ever before. Its top-tier AA score confirms the resulting general and agentic capabilities. This is just the start. We will firmly push forward RL scaling to build more powerful Qwen models. Stay tuned! Artificial Analysis (@ArtificialAnlys) Alibaba’s new Qwen3.7 Max model scores 56.6 on the Artificial Analysis Intelligence Index, 4.8 points higher than Qwen3.6 Max Preview (51.8). While Alibaba still trails models from OpenAI, Anthropic and Google, Qwen3.7 Max is the closest they have been to the frontier Qwen3.7 Max is @Alibaba_Qwen's latest proprietary flagship, scoring 56.6 on the Intelligence Index, a 4.8 point gain over Qwen3.6 Max Preview (51.8) released in April. Qwen3.7 Max continues Alibaba's pattern, in place since Qwen2.5 Max (January 2025), of releasing Max and Plus models as closed weights while the rest of the Qwen line remains open weights. The leading open weights Qwen on the Intelligence Index is Qwen3.6 27B (Reasoning, 45.8) released in April 2026, and the leading open weights MoE Qwen is Qwen3.5 397B A17B (Reasoning, 45.0) released in February 2026 Key takeaways for the reasoning variant: ➤ The Intelligence Index gains over Qwen3.6 Max Preview are concentrated in scientific reasoning, agentic capability and coding. CritPt +9.7 p.p (3.7% to 13.4%), HLE +9.2 p.p (28.9% to 38.1%), TerminalBench Hard +6.9 p.p (43.9% to 50.8%) and GDPval-AA +42 Elo (1504 to 1546). Scores on other benchmarks in the Intelligence Index are flat compared to Qwen3.6 Max Preview ➤ A significant share of the Int…</p> <p><a href="https://arint.info/@Arint/116616228299437662">mehr</a> auf <a href="https://arint.info/">Arint.info</a></p> <p>#Alibaba #Anthropic #API #Claude #DeepSeek #Gemini #Google #GPT5 #nitter #OpenAI #Qwen #Qwen25 #Qwen35 #Qwen36 #Qwen37 #rest #arint_info</p> <p><a href="https://x.com/ChujieZheng/status/2057403166589956518#m">https://x.com/ChujieZheng/status/2057403166589956518#m</a></p>

Mastodon Glitch Edition

Почему Qwen3.6-27B лучше чем Claude? Железная коробка, которая научилась думать

На вопрос «Чем локальная модель лучше коммерческой top‑quality модели от Anthropic, OpenAI или Google?», — обычно отвечают: приватность. На самом деле это не совсем так. Приватность важна, но не только она. У локальных моделей есть более важные качества, которые я покажу в этой статье.

https://habr.com/ru/articles/1037378/

#LLM #Qwen36 #Claude #local_models

Почему Qwen3.6-27B лучше чем Claude? Железная коробка, которая научилась думать

На вопрос «Чем локальная модель лучше коммерческой top‑quality модели от Anthropic, OpenAI или Google?», — обычно отвечают: приватность. На самом деле это не совсем так....

Хабр

Qwen3.6 27B MTP весит на +0.3 Гб больше, а даёт ускорение в ~2 раза. С 60 t/s до 130 t/s без потерь. Что такое MTP

В llama.cpp добавили поддержку MTP Qwen3.6. Дополнительные слои Multi-Token Prediction позволяют сгенерировать сразу несколько токенов за 1 проход, что ускоряет генерацию в 1.5-2 раза. Качество при этом остается lossless. Для моделей, которые не имеют встроенного MTP, есть альтернативы в лице EAGLE-3 и DFlash.

https://habr.com/ru/articles/1036120/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1036120

#искусственный_интеллект #mtp #llamacpp #qwen #qwen36

Qwen3.6 27B MTP весит на +0.3 Гб больше, а даёт ускорение в ~2 раза. С 60 t/s до 130 t/s без потерь. Что такое MTP

В llama.cpp добавили поддержку MTP Qwen3.6. Дополнительные слои Multi-Token Prediction позволяют сгенерировать сразу несколько токенов за 1 проход, что ускоряет генерацию в 1.5-2 раза. Качество при...

Хабр

RT @AtlasInference: TRANSLASATION: DGX Spark hat gerade für Qwen3.6-35B mit @AtlasInference auf @sparkarena über 200 Token pro Sekunde erreicht 🔥

mehr auf Arint.info

#AIInnovation #AtlasInference #DGXSpark #LLMPerformance #Qwen36 #TokenSpeed #arint_info

https://x.com/AtlasInference/status/2055716965071663385#m

Arint - SEO+KI (@[email protected])

<p>RT @AtlasInference: TRANSLASATION: DGX Spark hat gerade für Qwen3.6-35B mit @AtlasInference auf @sparkarena über 200 Token pro Sekunde erreicht 🔥</p> <p><a href="https://arint.info/@Arint/116593582009008646">mehr</a> auf <a href="https://arint.info/">Arint.info</a></p> <p>#AIInnovation #AtlasInference #DGXSpark #LLMPerformance #Qwen36 #TokenSpeed #arint_info</p> <p><a href="https://x.com/AtlasInference/status/2055716965071663385#m">https://x.com/AtlasInference/status/2055716965071663385#m</a></p>

Mastodon Glitch Edition