RT @hxiao: Mit der Veröffentlichung von 3.6-27b schließt sich die Lücke zwischen dichten Modellen und Mixture-of-Experts (MoE), was gut für lokales KI-Computing ist. MoE-Modelle wie 35b-a3b sind günstiger für GPUs mit niedrigem Budget und unterstützen deutlich längere Kontexte (256k Token auf 24 GB VRAM). Im Vergleich gleicher Größenordnungen (27B dicht vs. 35B-A3B MoE): Dichte Modelle führen noch in den meisten Aufgaben, aber in 7 von 10 Benchmarks hat sich die Lücke verringert. MoE holt leise auf, besonders bei Coding-Aufgaben (SWE-bench Multilingual: +9.0 → +4.1). Die einzige Ausnahme ist Terminal-Bench 2.0, wo dichte Modelle deutlich vorangelegt haben (+1.1 → +7.8). Qwen (@AlibabaQwen) 🚀 Meet Qwen3.6-27B, unser neuestes dichtes, Open-Source-Modell mit Flaggschiff-Coding-Power! Ja, 27B, und Qwen3.6-27B übertrifft seine Größe bei weitem. 👇 Was ist neu: 🧠 Hervorragendes agentic Coding — übertrifft Qwen3.5-397B-A17B in allen wichtigen Coding-Benchmarks 💡 Starke Reasoning-Fähigkeiten bei Text- und Multimodal-Aufgaben 🔄 Unterstützt Thinking- und Non-Thinking-Modi ✅ Apache 2.0 — vollständig offen, vollständig für dich Kleineres Modell. Größere Ergebnisse. Liebling der Community. ❤️ Wir können es kaum erwarten zu sehen, was ihr mit Qwen3.6-27B baut! 👀 🔗👇 Blog: qwen.ai/blog?id=qwen3.6-27b Qwen Studio: chat.qwen.ai/?models=qwen3.6… Github: github.com/QwenLM/Qwen3.6 Hugging Face: huggingface.co/Qwen/Qwen3.6-… ModelScope: modelscope.cn/models/Qwen/Qw…
mehr auf Arint.info
#AlibabaQwen #CodingBenchmarks #LocalAI #MachineLearning #OpenSourceAI #Qwen3 #arint_info
https://x.com/hxiao/status/2047004358500614152#m