Many SWE-bench-Passing PRs would not be merged
https://metr.org/notes/2026-03-10-many-swe-bench-passing-prs-would-not-be-merged-into-main/
#HackerNews #SWEbench #PRs #SoftwareEngineering #CodeQuality #DevelopmentInsights
Many SWE-bench-Passing PRs would not be merged
https://metr.org/notes/2026-03-10-many-swe-bench-passing-prs-would-not-be-merged-into-main/
#HackerNews #SWEbench #PRs #SoftwareEngineering #CodeQuality #DevelopmentInsights
SWE-bench Verified 폐기, AI 코딩 벤치마크의 신뢰성 위기
OpenAI가 AI 코딩 능력 측정 표준 벤치마크 SWE-bench Verified를 폐기했습니다. 테스트 결함과 훈련 데이터 오염, 두 가지 치명적 문제를 발견했기 때문입니다.Как читать новости об ИИ и отличать прорыв от пресс-релиза. И как относиться к заголовкам про «ИИ отнимет работу»
Новости об ИИ выходят быстрее, чем успеваешь их переварить: релизы моделей, таблицы бенчмарков, заявления про "революцию" и "конец профессий". Эта статья научит,что проверять, когда выходит новая модель, как читать бенчмарки, на что смотреть в model/system card , чтобы понимать реальный смысл анонса, чем open-weight отличается от закрытых моделей и почему это влияет на рынок. А заодно, как читать без паники и самообмана статьи вроде "ИИ отнимет у вас работу".
https://habr.com/ru/articles/1003130/
#нейросети #искусственный_интеллект #LLM #бенчмарки #Claude_Sonnet_46 #Gemini_31_Pro #GPT52 #SWEbench #ARCAGI2 #сравнение_моделей_ИИ

Схема: из чего состоит релиз модели LLM (пост → model/system card → методика → цена → независимые Новости об ИИ в 2026 году выглядят как непрерывный поток "самых умных моделей" и "рекордных...
OpenAI stuft SWE-bench Verified offiziell als unbrauchbar ein.
Das Problem ist zweigeteilt: Zum einen lernen Modelle die Lösungen aus Open-Source-Repos im Training auswendig. Zum anderen sind viele Unit-Tests fehlerhaft und lehnen korrekten Code ab, nur weil eine API unerwartet genutzt wurde.
Die Branche muss auf SWE-bench Pro wechseln. Durch private Codebasen und proprietäre Daten wird Training Leakage physisch verhindert. #OpenAI #SWEbench #AI
https://www.all-ai.de/news/news26/openai-bench-swe
Latent.Space (@latentspacepod)
OpenAI가 SWE-Bench Verified의 자발적 지원 중단(폐기)을 발표했습니다. SWE-Bench는 소프트웨어 엔지니어링 성능 벤치마크로, 커뮤니티 내 포화 상태에 도달했다는 논의가 있었습니다. 이번 공지를 통해 OpenAI는 관련 팟캐스트와 분석 자료도 함께 공개하며 향후 표준 평가 체계의 변화를 시사했습니다.

🆕 The End of SWE-Bench Verified (2024-2026) https://t.co/HCmogFFG8w Today @OpenAIDevs is announcing the voluntary deprecation of SWE-Bench Verified! We're releasing a podcast + analysis in today's post. Saturation of SWE-Bench has been a community hot topic for over a year -
MiniMax (official) (@MiniMax_AI)
simonw가 검증한 SWE-bench 평가에서 MiniMax M2.5가 동일한 평가 설정 하에 강한 결과를 보였다는 독립적 분석을 소개하는 트윗입니다. SWE-bench Verified를 이용한 비교 검증 결과를 언급하며 MiniMax M2.5의 성능이 주목받고 있다는 점을 알립니다.
Google just rolled out Gemini 3.1 Pro, smashing the GPQA Diamond benchmark at 94.3% and climbing to an Elo 2 on LiveCodeBench Pro. It also tops SWE‑Bench, showing leaps in AI reasoning, scientific knowledge, and vibe‑coding. Curious how it reshapes open‑source AI research? Read the full breakdown. #Gemini3_1Pro #GPQADiamond #LiveCodeBenchPro #SWEBench
🔗 https://aidailypost.com/news/google-unveils-gemini-31-pro-hits-943-gpqa-diamond-coding-elo-2
Simon Willison (@simonw)
공식 SWE-bench 리더보드의 2026년 2월 업데이트에 대한 노트를 작성했다는 게시. 보너스 사이드 퀘스트로 'Claude for Chrome'이 차트를 다시 그려 막대에 퍼센트 라벨을 추가하도록 요청하는 내용 언급 — 벤치마크 업데이트 및 시각화/도구 관련 논의.
Anthropic's new Claude Sonnet 4.6 just smashed the SWE-bench leaderboard with a 79.6% pass rate while costing only a fifth of Opus. That's a huge leap for AI-assisted software engineering and a strong signal for enterprise AI adoption. Curious how it stacks up against OSWorld benchmarks? Dive into the details. #Anthropic #ClaudeSonnet #SWEbench #EnterpriseAI
🔗 https://aidailypost.com/news/anthropics-sonnet-46-hits-796-swe-bench-costs-onefifth-opus
같은 AI 모델이 다르게 작동하는 이유, 시스템 프롬프트의 숨은 영향력
같은 AI 모델도 시스템 프롬프트에 따라 완전히 다른 코딩 에이전트가 됩니다. 6개 제품 분석과 실험으로 증명된 프롬프트의 영향력을 소개합니다.