Новый бенчмарк по кодингу для LLM ProgramBench: 9 топ моделей, 200 задач, 248 тысяч тестов. Полностью решённых — ноль

200 задач. 248 тысяч тестов. Девять моделей, среди них всё свежее: Opus 4.7, GPT 5.4, Gemini 3.1 Pro, Sonnet 4.6. На SWE-bench те же модели берут 70 % и выше. На ProgramBench — ноль полного резолва. Лучший «почти решено» у Opus 4.7 — 3 %. У остальных и того нет. Это новый бенчмарк от Meta Superintelligence Labs, Stanford и Harvard (2026). Агенту дают скомпилированный бинарь и описание программы. Никаких сорсов, никакой декомпиляции, никакого интернета. Задача — собрать программу с нуля так, чтобы она прошла 248 тысяч поведенческих тестов. Это не «пофиксить баг в существующем коде» (как SWE-bench) и не «дописать функцию по сигнатуре» (как HumanEval). Это другой ТИП задачи: спроектировать систему. Внутри — методология, паттерн результатов (что модели вытягивают, а что нет), и почему этот ноль — на самом деле важная новость для тех, кто строит на LLM продакшен.

https://habr.com/ru/articles/1035574/

#ProgramBench #бенчмарк #LLM #кодингагенты #SWEbench #vibecoding #opus_47 #GPT54

Новый бенчмарк по кодингу для LLM ProgramBench: 9 топ моделей, 200 задач, 248 тысяч тестов. Полностью решённых — ноль

200 задач. 248 тысяч поведенческих тестов. Девять моделей, среди них всё свежее на 2026 год: Opus 4.7, GPT 5.4, Gemini 3.1 Pro, Sonnet 4.6, Haiku 4.5. На SWE-bench те же модели стабильно берут 70 % и...

Хабр

Scale Labs (@ScaleAILabs)

Artificial Analysis가 발표한 새로운 Coding Agent Index에 대해 언급하며, SWE 리더보드 3개 중 2개가 해당 지표에 포함되었다고 소개합니다. 코딩 에이전트 평가가 아직 초기 단계이며 향후 추가적인 벤치마크 연구가 필요하다는 점을 강조합니다.

https://x.com/ScaleAILabs/status/2054264570622136689

#codingagent #benchmark #swebench #artificialanalysis #aieval

Scale Labs (@ScaleAILabs) on X

Cool to see two of the three SWE leaderboards included in @ArtificialAnlys new Coding Agent Index are ours: SWE Atlas-Codebase QnA and SWE-Bench Pro. We’re still in the early days of evaluating coding agents, and there’s a lot more frontier work ahead. Excited to keep pushing

X (formerly Twitter)
🍪🔒 Oh wow, an article trying to explain why SWE-bench Verified doesn't measure cutting-edge coding skills, but all it tells you is to enable #JavaScript and #cookies. Groundbreaking insight! 🧠✨ Clearly, the future of coding depends on cookie consent. 🍪💡
https://openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/ #SWEbench #CookieConsent #CodingSkills #GroundbreakingInsight #HackerNews #ngated
Why SWE-bench Verified no longer measures frontier coding capabilities

SWE-bench Verified is increasingly contaminated and mismeasures frontier coding progress. Our analysis shows flawed tests and training leakage. We recommend SWE-bench Pro.

OpenAI
Why SWE-bench Verified no longer measures frontier coding capabilities

SWE-bench Verified is increasingly contaminated and mismeasures frontier coding progress. Our analysis shows flawed tests and training leakage. We recommend SWE-bench Pro.

OpenAI

[Перевод] Вышел DeepSeek V4. Почему это очень плохо для США?

DeepSeek V4 Pro — это 1,6 триллиона параметров, mixture of experts (MoE), 49 млрд активных параметров и контекст в 1 миллион токенов. V4 Flash — рабочая лошадка: 284 млрд параметров суммарно, 13 млрд активных. Обе модели обучены примерно на 33 трлн токенов. На агентских бенчмарках кода, MMLU Pro, GPQA Diamond, SWE-bench Verified — V4 рядом с Opus 4.7 и GPT-5.5. Немного отстаёт, но совсем немного. Вот в чём дело. Большинству задач не нужен абсолютный frontier. Компании не решают сложнейшие научные задачи — они ведут бизнес. Представьте: вы CEO, смотрите на GPT-5.5 по $30 за миллион выходных токенов, на Opus 4.7 по похожей цене — и тут DeepSeek в разы дешевле, open source, его можно дообучать, хостить где угодно, контролировать точечно. Математика очевидна. Здесь и начинается проблема.

https://habr.com/ru/articles/1028032/

#DeepSeek_V4 #mixture_of_experts #open_source_LLM #frontier_модели #SWEbench #экспортный_контроль_AI #дистилляция_моделей #AI_безопасность #OpenAI_Anthropic_конкуренция #стоимость_инференса

Вышел DeepSeek V4. Почему это очень плохо для США?

DeepSeek выпустили V4 с открытыми весами, на уровне frontier-моделей — и в разы дешевле Opus 4.7 или GPT-5.5. R1 в своё время обвалил рынок на 20% за ночь. V4 — масштабнее. DeepSeek V4 Pro — это 1,6...

Хабр

Bnaf.OG | (@bnafOg)

SWE-bench agentic 벤치마크와 스캐폴딩 레이어가 에이전틱 코딩 성능의 실제 기준이 되고 있지만, 50만 토큰 이상 장문 맥락에서의 일관성은 아직 충분히 측정되지 않았다고 지적합니다. 1T급 로컬 배포도 언급하며 실용적 모델 배포의 중요성을 강조합니다.

https://x.com/bnafOg/status/2047575382577078428

#agenticcoding #swebench #longcontext #llm #localdeployment

Bnaf.OG | 🟧 (@bnafOg) on X

@cedric_chee Agentic coding parity is real, but the benchmark is SWE-bench agentic with a scaffolding layer — which smooths over the model's raw multi-file reasoning. Long-context coherence at 500K+ real tokens (not synthetic NIAH) is still unmeasured. 1T local deploy: respect.

X (formerly Twitter)

Theo - t3.gg (@theo)

SWE-bench가 오염(contaminated)되어 이제는 더 이상 관련성이 낮다는 의견을 담은 트윗입니다. AI 벤치마크의 신뢰성에 대한 비판으로 볼 수 있습니다.

https://x.com/theo/status/2047395782744039854

#swebench #benchmark #llm #evaluation

Theo - t3.gg (@theo) on X

@deedydas swe-bench is contaminated, not really relevant anymore imo

X (formerly Twitter)

21GB로 코딩 에이전트 상위권, Qwen3.6-35B-A3B 오픈소스 공개

알리바바 Qwen 팀이 공개한 Qwen3.6-35B-A3B, MoE 구조로 21GB로 압축해 노트북에서 실행 가능하면서 코딩 에이전트 상위권 성능을 냅니다.

https://aisparkup.com/posts/11416

sui (@birdabo)

중국 측에서 또 하나의 SOTA 오픈소스 모델이 나왔다는 내용입니다. 장기 코딩, 업그레이드된 에이전트 스웜, 모션이 풍부한 풀 프론트엔드 생성, 실제로 동작하는 에이전트 구축을 강조하며 SWE-Bench Pro 58.6점으로 에이전틱 코딩 성능을 내세웁니다.

https://x.com/birdabo/status/2046302702419018176

#sota #opensource #coding #agents #swebench

sui ☄️ (@birdabo) on X

🚨🇨🇳 another SOTA model from the chinese and its fully open source! > long horizon coding. > upgraded agent swarms. > can build full motion-rich frontends. > ships agents that actually work lol. SOTA on SWE-Bench Pro (58.6) crushes the big boys in agentic coding btw.

X (formerly Twitter)

Claude (@claudeai)

평가 결과, Opus advisor를 붙인 Sonnet이 단독 Sonnet보다 SWE-bench Multilingual에서 2.7%p 더 높은 성능을 내면서 작업당 비용은 11.9% 절감됐다. 에이전트 품질과 비용 효율을 함께 개선한 결과다.

https://x.com/claudeai/status/2042308627478773808

#evals #swebench #claude #agents #benchmark

Claude (@claudeai) on X

In evals, Sonnet with an Opus advisor scored 2.7 percentage points higher on SWE-bench Multilingual than Sonnet alone, while costing 11.9% less per task.

X (formerly Twitter)