Stanford-Forschende entwickeln ein neues, kosteneffizientes Bewertungssystem für Sprachmodelle. Die Methode reduziert Prüfkosten um über 50 % und ermöglicht gleichzeitig bessere Vergleichbarkeit zwischen KI-Modellen – ein Schritt zu transparenterer KI-Evaluierung.

👉 https://news.stanford.edu/stories/2025/07/new-cost-effective-way-to-evaluate-AI-language-models

#KIEvaluation #Sprachmodelle #KIStandards #KünstlicheIntelligenz #Stanford #Modellvergleich

Evaluating AI language models just got more effective and efficient

Assessing the progress of new AI language models can be as challenging as training them. Stanford researchers offer a new approach.

KI-Forscher fordern bessere Teststandards für KI-Systeme. Besonders Red Teaming durch unabhängige Dritte soll Risiken wie Hassrede oder Urheberrechtsverletzungen sichtbar machen. Erste Ansätze kommen vom Project Moonshot in Singapur.

👉 https://www.cnbc.com/2025/06/22/ai-chatbot-problem-harmful-outputs-standards-and-tests-red-teaming-researchers.html

#KIEvaluation #RedTeam #KIStandards #VertrauenInKI #KIRegulierung #ProjectMoonshot

Encountered a problematic response from an AI model? More standards and tests are needed, say researchers

AI has a security problem — and industry insiders say testing standards have a long way to go

CNBC

Galileo AI veröffentlicht einen strukturierten Leitfaden für das Testen von KI-Agenten. Die Methodik umfasst drei Phasen: Zieldefinition, Komponentenzerlegung und Simulation. Ergänzt wird sie durch Metriken wie Aufgabenerfüllung, Fehlerrate und Antwortzeiten.

👉 https://galileo.ai/blog/how-to-test-ai-agents-evaluation

#KIAgenten #KITest #KIEvaluation #AIQuality #GalileoAI #Softwarequalität

How to Test AI Agents + Metrics for Evaluation

Unlock the key to AI agent testing with our guide. Discover metrics, best practices, and innovative techniques to evaluate your AI agents.

„Humanity’s Last Exam“: Ein KI-Test mit 3.000 Fragen auf PhD-Niveau soll zeigen, ob heutige KI-Systeme über klassische Bewertungsmethoden hinauswachsen. Selbst das beste Modell (OpenAI o1) erzielte nur 8,3 %. Ein Denkanstoß für die Grenzen unserer Evaluationssysteme.

👉 https://www.nytimes.com/2025/01/23/technology/ai-test-humanitys-last-exam.html

#KIEvaluation #KünstlicheIntelligenz #AIAlignment #PhDNiveau #HumanitysLastExam #GrenzenDerKI

A Test So Hard No AI System Can Pass It — Yet

The creators of a new test called “Humanity’s Last Exam” argue we may soon lose the ability to create tests hard enough for A.I. models.

The New York Times

Eine neue Studie zeigt: KI-Tools können erfahrene Open-Source-Entwickler bei realen Aufgaben um 19 % verlangsamen. Die Ergebnisse widersprechen gängigen Benchmarks und verdeutlichen den Bedarf an realitätsnahen Evaluationsmethoden für KI im Entwicklungsprozess.

👉 https://metr.org/blog/2025-07-10-early-2025-ai-experienced-os-dev-study/

#KünstlicheIntelligenz #Softwareentwicklung #KIStudie #Produktivität #KIEvaluation #OpenSource

Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity

We conduct a randomized controlled trial to understand how early-2025 AI tools affect the productivity of experienced open-source developers working on their own repositories. Surprisingly, we find that when developers use AI tools, they take 19% longer than without—AI makes them slower.

Die RAND Corporation schlägt eine EU-Taskforce zur Standardisierung von KI-Evaluierungen vor. Ziel: Stärkere Qualitätskontrolle durch vier Kernanforderungen – interne/externe Validität, Reproduzierbarkeit & Portabilität. Die Initiative könnte globale Standards prägen.

👉 https://www.rand.org/pubs/perspectives/PEA3624-1.html

#KIEvaluation #KünstlicheIntelligenz #EUKI #VertrauenInKI #Standardisierung #Forschung