Mastodawn

https://winbuzzer.com/2026/05/28/deepswe-puts-gpt-55-ahead-in-ai-coding-tests-xcxwbn/

Datacurve's new DeepSWE benchmark puts GPT-5.5 ahead of Claude and challenges older AI coding rankings by arguing verifier design can distort results.

#AI #CodingBenchmarks #AIBenchmarks #AICoding #AIModels #OpenAI #Anthropic #GPT55 #ClaudeOpus47

Arint - SEO+KI Apr 23

RT @hxiao: Mit der Veröffentlichung von 3.6-27b schließt sich die Lücke zwischen dichten Modellen und Mixture-of-Experts (MoE), was gut für lokales KI-Computing ist. MoE-Modelle wie 35b-a3b sind günstiger für GPUs mit niedrigem Budget und unterstützen deutlich längere Kontexte (256k Token auf 24 GB VRAM). Im Vergleich gleicher Größenordnungen (27B dicht vs. 35B-A3B MoE): Dichte Modelle führen noch in den meisten Aufgaben, aber in 7 von 10 Benchmarks hat sich die Lücke verringert. MoE holt leise auf, besonders bei Coding-Aufgaben (SWE-bench Multilingual: +9.0 → +4.1). Die einzige Ausnahme ist Terminal-Bench 2.0, wo dichte Modelle deutlich vorangelegt haben (+1.1 → +7.8). Qwen (@AlibabaQwen) 🚀 Meet Qwen3.6-27B, unser neuestes dichtes, Open-Source-Modell mit Flaggschiff-Coding-Power! Ja, 27B, und Qwen3.6-27B übertrifft seine Größe bei weitem. 👇 Was ist neu: 🧠 Hervorragendes agentic Coding — übertrifft Qwen3.5-397B-A17B in allen wichtigen Coding-Benchmarks 💡 Starke Reasoning-Fähigkeiten bei Text- und Multimodal-Aufgaben 🔄 Unterstützt Thinking- und Non-Thinking-Modi ✅ Apache 2.0 — vollständig offen, vollständig für dich Kleineres Modell. Größere Ergebnisse. Liebling der Community. ❤️ Wir können es kaum erwarten zu sehen, was ihr mit Qwen3.6-27B baut! 👀 🔗👇 Blog: qwen.ai/blog?id=qwen3.6-27b Qwen Studio: chat.qwen.ai/?models=qwen3.6… Github: github.com/QwenLM/Qwen3.6 Hugging Face: huggingface.co/Qwen/Qwen3.6-… ModelScope: modelscope.cn/models/Qwen/Qw…

mehr auf Arint.info

#AlibabaQwen #CodingBenchmarks #LocalAI #MachineLearning #OpenSourceAI #Qwen3 #arint_info

https://x.com/hxiao/status/2047004358500614152#m

Arint - SEO+KI (@[email protected])

RT @hxiao: Mit der Veröffentlichung von 3.6-27b schließt sich die Lücke zwischen dichten Modellen und Mixture-of-Experts (MoE), was gut für lokales KI-Computing ist. MoE-Modelle wie 35b-a3b sind günstiger für GPUs mit niedrigem Budget und unterstützen deutlich längere Kontexte (256k Token auf 24 GB VRAM). Im Vergleich gleicher Größenordnungen (27B dicht vs. 35B-A3B MoE): Dichte Modelle führen noch in den meisten Aufgaben, aber in 7 von 10 Benchmarks hat sich die Lücke verringert. MoE holt leise auf, besonders bei Coding-Aufgaben (SWE-bench Multilingual: +9.0 → +4.1). Die einzige Ausnahme ist Terminal-Bench 2.0, wo dichte Modelle deutlich vorangelegt haben (+1.1 → +7.8). Qwen (@AlibabaQwen) 🚀 Meet Qwen3.6-27B, unser neuestes dichtes, Open-Source-Modell mit Flaggschiff-Coding-Power! Ja, 27B, und Qwen3.6-27B übertrifft seine Größe bei weitem. 👇 Was ist neu: 🧠 Hervorragendes agentic Coding — übertrifft Qwen3.5-397B-A17B in allen wichtigen Coding-Benchmarks 💡 Starke Reasoning-Fähigkeiten bei Text- und Multimodal-Aufgaben 🔄 Unterstützt Thinking- und Non-Thinking-Modi ✅ Apache 2.0 — vollständig offen, vollständig für dich Kleineres Modell. Größere Ergebnisse. Liebling der Community. ❤️ Wir können es kaum erwarten zu sehen, was ihr mit Qwen3.6-27B baut! 👀 🔗👇 Blog: qwen.ai/blog?id=qwen3.6-27b Qwen Studio: chat.qwen.ai/?models=qwen3.6… Github: github.com/QwenLM/Qwen3.6 Hugging Face: huggingface.co/Qwen/Qwen3.6-… ModelScope: modelscope.cn/models/Qwen/Qw… <a href="https://arint.info/@Arint/116453441019372261">mehr</a> auf <a href="https://arint.info/">Arint.info</a> #AlibabaQwen #CodingBenchmarks #LocalAI #MachineLearning #OpenSourceAI #Qwen3 #arint_info <a href="https://x.com/hxiao/status/2047004358500614152#m">https://x.com/hxiao/status/2047004358500614152#m</a>

Mastodon Glitch Edition

Hacker News Mar 27

$500 GPU outperforms Claude Sonnet on coding benchmarks

https://github.com/itigges22/ATLAS

#HackerNews #GPU #Performance #CodingBenchmarks #TechNews #AI

GitHub - itigges22/ATLAS: Adaptive Test-time Learning and Autonomous Specialization

Adaptive Test-time Learning and Autonomous Specialization - itigges22/ATLAS

GitHub

RedRobot May 12, 2025

Chinese AI firm DeepSeek unveiled its GRM evaluation framework on 12 April 2025, aiming to refine generative models through meta-reinforcement learning. ❤️ #AIdevelopment #ChinaTechPolicy #CodingBenchmarks #generativemodels #MetaLlama4 #redrobot

https://redrobot.online/2025/05/deepseek-challenges-metas-ai-dominance-with-self-improving-grm-framework/

DeepSeek Challenges Meta’s AI Dominance With Self-Improving GRM Framework

Chinese AI firm DeepSeek unveiled its GRM evaluation framework on 12 April 2025, aiming to refine generative models through meta-reinforcement learning. The upc

Le Red Robot