RT @hxiao: Mit der Veröffentlichung von 3.6-27b schließt sich die Lücke zwischen dichten Modellen und Mixture-of-Experts (MoE)-Modellen, was gut für lokale KI-Anwendungen ist. MoE-Modelle wie 35b-a3b sind günstiger in der Hardware-Nutzung und unterstützen deutlich längere Kontexte (256k Token auf 24GB VRAM). Im direkten Vergleich gleicher Größenordnung (27B dicht vs. 35B-A3B MoE) schneiden dichte Modelle in den meisten Aufgaben noch besser ab, doch in 7 von 10 Benchmarks hat sich die Lücke verringert. MoE schließt leise die Lücke, insbesondere bei Coding-Aufgaben (SWE-bench Multilingual: +9.0 → +4.1). Die einzige Ausnahme ist Terminal-Bench 2.0, wo dichte Modelle deutlich vorlagen (+1.1 → +7.8). Qwen (@AlibabaQwen) 🚀 Meet Qwen3.6-27B, unser neuestes dichtes, Open-Source-Modell mit Flaggschiff-Level Coding-Kompetenz! Ja, 27B Parameter, und Qwen3.6-27B schlägt weit über seinen Gewichtsklasse. 👇 Was ist neu: 🧠 Hervorragende agentic Coding-Fähigkeiten — übertrifft Qwen3.5-397B-A17B in allen wichtigen Coding-Benchmarks 💡 Starke Reasoning-Fähigkeiten bei Text- und Multimodal-Aufgaben 🔄 Unterstützt Thinking- und Non-Thinking-Modi ✅ Apache 2.0 — vollständig offen, vollständig für dich. Kleineres Modell. Größere Ergebnisse. Liebling der Community. ❤️ Wir können es kaum erwarten zu sehen, was ihr mit Qwen3.6-27B baut! 👀 🔗👇 Blog: qwen.ai/blog?id=qwen3.6-27b Qwen Studio: chat.qwen.ai/?models=qwen3.6… Github: github.com/QwenLM/Qwen3.6 Hugging Face: huggingface.co/Qwen/Qwen3.6-… Hugging Face: huggingface.co/Qwen/Qwen3.6-… ModelScope: modelscope.cn/models/Qwen/Qw… modelscope.cn/models/Qwen/Qw… — htt…
mehr auf Arint.info
#AlibabaQwen #CodingAI #LocalAI #MachineLearning #OpenSourceAI #Qwen36 #arint_info
https://x.com/hxiao/status/2047004358500614152#m