BenchEWS v1.0: A Capability-Fa...
BenchEWS v1.0: A Capability-Faithful and Reproducible Benchmark for Early-Warning Signal Evaluation
BenchEWS v1.0 is an open, reproducible, and adversarially hardened benchmark for evaluating Early-Warning Signal (EWS) methods in complex systems. The benchmark focuses on Fold (saddle-node) transitions generated from synthetic stochastic dynamical systems and is designed to evaluate whether an indicator demonstrates genuine early-warning capability rather than exploiting benchmark artifacts. BenchEWS combines reproducible task generation, holdout evaluation, execution isolation, causal verification, and false-alarm-gated leaderboard admission into a unified governance framework. The benchmark introduces four complementary protection layers: Holdout Evaluation to prevent dataset memorization and label hardcoding. Execution Isolation to prevent ground-truth access and sandbox escapes. Prefix-Consistency Verification to detect non-causal and lookahead-based indicators. False-Alarm Eligibility Gating (FAR) to prevent indiscriminate alarm strategies from dominating timeliness rankings. BenchEWS does not propose a new Early-Warning Signal theory. Instead, it provides a benchmark infrastructure intended to support fair, reproducible, and capability-faithful comparison of EWS methods under explicitly defined governance constraints. The framework was developed in response to a series of hostile governance audits, adversarial gaming analyses, and reproducibility reviews, resulting in a benchmark architecture designed to minimize leaderboard inflation and maximize scientific transparency. Keywords (English) Early Warning Signals, EWS, Benchmarking, Benchmark Governance, Reproducibility, Scientific Infrastructure, Open Science, Adversarial Evaluation, Leaderboard Integrity, False Alarm Rate, Holdout Evaluation, Causal Verification, Process Isolation, Complex Systems, Critical Transitions, Tipping Points, Saddle-Node Bifurcation, Fold Transition, Dynamical Systems, Time Series Analysis, Monitoring Systems, Scientific Software Governance Zenodo-Beschreibung (Deutsch) BenchEWS v1.0 ist ein offenes, reproduzierbares und gegen strategische Ausnutzung gehärtetes Benchmark-System zur Bewertung von Early-Warning-Signal-(EWS)-Methoden in komplexen Systemen. Der Benchmark konzentriert sich auf Fold- bzw. Saddle-Node-Übergänge in synthetischen stochastischen Dynamiken und wurde entwickelt, um tatsächliche Frühwarnfähigkeit von Methoden zu messen, anstatt deren Fähigkeit zur Ausnutzung von Benchmark-Strukturen. BenchEWS kombiniert reproduzierbare Aufgabengenerierung, Holdout-Evaluation, Ausführungsisolation, Kausalitätsprüfung und eine False-Alarm-basierte Zulassungslogik für Ranglisten in einer gemeinsamen Governance-Architektur. Der Benchmark basiert auf vier zentralen Schutzmechanismen: Holdout-Evaluation gegen Datensatz-Memorisierung und Label-Hardcoding. Execution Isolation gegen Ground-Truth-Zugriffe und Sandbox-Umgehungen. Prefix-Consistency Verification zur Erkennung nicht-kausaler und Lookahead-basierter Verfahren. False-Alarm Eligibility Gating (FAR) zur Verhinderung von „Alarm-immer“-Strategien auf Ranglisten. BenchEWS stellt keine neue Theorie von Early-Warning-Signalen vor. Stattdessen bietet es eine Benchmark-Infrastruktur für faire, reproduzierbare und fähigkeitsgetreue Vergleiche von EWS-Verfahren unter klar definierten Governance-Bedingungen. Die Architektur entstand aus einer Reihe adversarieller Audits, Governance-Analysen und Reproduzierbarkeitsprüfungen mit dem Ziel, Leaderboard-Manipulationen zu minimieren und wissenschaftliche Transparenz zu maximieren. Schlüsselwörter (Deutsch) Frühwarnsignale, Early Warning Signals, Benchmark, Benchmark-Governance, Reproduzierbarkeit, Wissenschaftliche Infrastruktur, Open Science, Adversarielle Evaluation, Ranglistenintegrität, False Alarm Rate, Holdout-Evaluation, Kausalitätsprüfung, Prozessisolation, Komplexe Systeme, Kritische Übergänge, Kipppunkte, Saddle-Node-Bifurkation, Fold-Transition, Dynamische Systeme, Zeitreihenanalyse, Monitoring-Systeme, Wissenschaftliche Software-Governance Autor Diplom-Ingenieur Bernd von MallinckrodtORCID: 0009-0005-5279-6607E-Mail: [email protected]


