Zennに書きました。
最新のコーディングエージェントにBrainfuckの問題を解かせたら、全問正解(100%)。喜ぶ前に、テストケースに無い「8 8」を入れてみたら、答えが返ってこない。
中を見たら、足し算をするコードじゃなく、テストの6つの答えを入力で場合分けして出力するだけのコードでした。採点は通るけど、計算はしていない。カンニングです。
答えへのアクセスを断ってサンプルだけで自己修正させると、簡単な問題は実力で解けるところまで来ていた。でも階乗やフィボナッチのような多段の問題は0%。論文 EsoLang-Bench の言う「崖」は、答えを隠した公正な条件でもそのまま残っていました。
カンニングの現物コード(Brainfuck全文)と、3条件の実測を全部載せています。


