Many SWE-bench-Passing PRs Would Not Be Merged into Main

SWE-bench Verified 폐기, AI 코딩 벤치마크의 신뢰성 위기

OpenAI가 AI 코딩 능력 측정 표준 벤치마크 SWE-bench Verified를 폐기했습니다. 테스트 결함과 훈련 데이터 오염, 두 가지 치명적 문제를 발견했기 때문입니다.

https://aisparkup.com/posts/9615

Как читать новости об ИИ и отличать прорыв от пресс-релиза. И как относиться к заголовкам про «ИИ отнимет работу»

Новости об ИИ выходят быстрее, чем успеваешь их переварить: релизы моделей, таблицы бенчмарков, заявления про "революцию" и "конец профессий". Эта статья научит,что проверять, когда выходит новая модель, как читать бенчмарки, на что смотреть в model/system card , чтобы понимать реальный смысл анонса, чем open-weight отличается от закрытых моделей и почему это влияет на рынок. А заодно, как читать без паники и самообмана статьи вроде "ИИ отнимет у вас работу".

https://habr.com/ru/articles/1003130/

#нейросети #искусственный_интеллект #LLM #бенчмарки #Claude_Sonnet_46 #Gemini_31_Pro #GPT52 #SWEbench #ARCAGI2 #сравнение_моделей_ИИ

Как читать новости об ИИ и отличать прорыв от пресс-релиза. И как относиться к заголовкам про «ИИ отнимет работу»

Схема: из чего состоит релиз модели LLM (пост → model/system card → методика → цена → независимые Новости об ИИ в 2026 году выглядят как непрерывный поток "самых умных моделей" и "рекордных...

Хабр

OpenAI stuft SWE-bench Verified offiziell als unbrauchbar ein.

Das Problem ist zweigeteilt: Zum einen lernen Modelle die Lösungen aus Open-Source-Repos im Training auswendig. Zum anderen sind viele Unit-Tests fehlerhaft und lehnen korrekten Code ab, nur weil eine API unerwartet genutzt wurde.

Die Branche muss auf SWE-bench Pro wechseln. Durch private Codebasen und proprietäre Daten wird Training Leakage physisch verhindert. #OpenAI #SWEbench #AI
https://www.all-ai.de/news/news26/openai-bench-swe

Darum warnt OpenAI jetzt vor dem wichtigsten KI-Benchmark

Falsche Tests und geklaute Daten verzerren die Ergebnisse der besten Sprachmodelle. Die Industrie muss sofort umdenken.

All-AI.de

Latent.Space (@latentspacepod)

OpenAI가 SWE-Bench Verified의 자발적 지원 중단(폐기)을 발표했습니다. SWE-Bench는 소프트웨어 엔지니어링 성능 벤치마크로, 커뮤니티 내 포화 상태에 도달했다는 논의가 있었습니다. 이번 공지를 통해 OpenAI는 관련 팟캐스트와 분석 자료도 함께 공개하며 향후 표준 평가 체계의 변화를 시사했습니다.

https://x.com/latentspacepod/status/2026027529039990985

#openai #benchmark #ai #swebench #research

Latent.Space (@latentspacepod) on X

🆕 The End of SWE-Bench Verified (2024-2026) https://t.co/HCmogFFG8w Today @OpenAIDevs is announcing the voluntary deprecation of SWE-Bench Verified! We're releasing a podcast + analysis in today's post. Saturation of SWE-Bench has been a community hot topic for over a year -

X (formerly Twitter)

MiniMax (official) (@MiniMax_AI)

simonw가 검증한 SWE-bench 평가에서 MiniMax M2.5가 동일한 평가 설정 하에 강한 결과를 보였다는 독립적 분석을 소개하는 트윗입니다. SWE-bench Verified를 이용한 비교 검증 결과를 언급하며 MiniMax M2.5의 성능이 주목받고 있다는 점을 알립니다.

https://x.com/MiniMax_AI/status/2024646767325958285

#minimax #m2.5 #swebench #benchmark

MiniMax (official) (@MiniMax_AI) on X

Nice independent look at SWE-bench Verified by @simonw MiniMax M2.5 showing strong results under the same evaluation setup. Worth a read

X (formerly Twitter)

Google just rolled out Gemini 3.1 Pro, smashing the GPQA Diamond benchmark at 94.3% and climbing to an Elo 2 on LiveCodeBench Pro. It also tops SWE‑Bench, showing leaps in AI reasoning, scientific knowledge, and vibe‑coding. Curious how it reshapes open‑source AI research? Read the full breakdown. #Gemini3_1Pro #GPQADiamond #LiveCodeBenchPro #SWEBench

🔗 https://aidailypost.com/news/google-unveils-gemini-31-pro-hits-943-gpqa-diamond-coding-elo-2

Simon Willison (@simonw)

공식 SWE-bench 리더보드의 2026년 2월 업데이트에 대한 노트를 작성했다는 게시. 보너스 사이드 퀘스트로 'Claude for Chrome'이 차트를 다시 그려 막대에 퍼센트 라벨을 추가하도록 요청하는 내용 언급 — 벤치마크 업데이트 및 시각화/도구 관련 논의.

https://x.com/simonw/status/2024346931632492827

#benchmark #swebench #claude #chrome #llm

Simon Willison (@simonw) on X

Wrote up some notes on the February 2026 update to the official SWE-bench leaderboard, with a bonus side-quest to get Claude for Chrome to redraw their chart to add percentage labels to the bars https://t.co/fU6F2UM23X

X (formerly Twitter)

Anthropic's new Claude Sonnet 4.6 just smashed the SWE-bench leaderboard with a 79.6% pass rate while costing only a fifth of Opus. That's a huge leap for AI-assisted software engineering and a strong signal for enterprise AI adoption. Curious how it stacks up against OSWorld benchmarks? Dive into the details. #Anthropic #ClaudeSonnet #SWEbench #EnterpriseAI

🔗 https://aidailypost.com/news/anthropics-sonnet-46-hits-796-swe-bench-costs-onefifth-opus

같은 AI 모델이 다르게 작동하는 이유, 시스템 프롬프트의 숨은 영향력

같은 AI 모델도 시스템 프롬프트에 따라 완전히 다른 코딩 에이전트가 됩니다. 6개 제품 분석과 실험으로 증명된 프롬프트의 영향력을 소개합니다.

https://aisparkup.com/posts/9274