OpenAI launches GDPval to measure AI performance on real-world economic tasks

https://web.brid.gy/r/https://nerds.xyz/2025/09/openai-gdpval/

MCP-Universe-Benchmark zeigt: GPT-5 scheitert an mehr als der Hälfte aller Praxisaufgaben
Der neue MCP-Universe-Benchmark von Salesforce zeigt deutliche Schwächen aktueller KI-Modelle bei realen Unternehmensaufg
https://www.apfeltalk.de/magazin/news/mcp-universe-benchmark-zeigt-gpt-5-scheitert-an-mehr-als-der-haelfte-aller-praxisaufgaben/
#KI #News #Agentinnen #Benchmark #GPT5 #KIModelle #MCPUniverse #ModelContextProtocol #Orchestrierung #RealworldTasks #Salesforce #Unternehmensaufgaben
MCP-Universe-Benchmark zeigt: GPT-5 scheitert an mehr als der Hälfte aller Praxisaufgaben

Der MCP-Universe-Benchmark zeigt: Selbst fortschrittliche KI-Modelle wie GPT-5 lösen weniger als die Hälfte aller realen Unternehmensaufgaben zuverlässig.

Apfeltalk Magazin