SWE-bench 통과한 AI 코드, 실제 개발자에겐 절반이 불합격

METR 연구 결과, AI가 SWE-bench를 통과한 코드의 절반이 실제 개발자 심사에서 탈락했습니다. 벤치마크 점수와 실무 유용성 사이의 격차를 분석합니다.

https://aisparkup.com/posts/10118

Вас пугают AI-увольнениями. Я посмотрел — кто это делает и зачем

Год назад METR доказали что AI замедляет разработчиков на 19%. В феврале 2026 обновили данные - похоже на разворот к ускорению. Но об этом почти не написали. Зато «AI уволит 50% разработчиков» - в каждом втором заголовке. Полез разбираться, кому выгодна AI-паника. Нашёл CEO, которые увольняют тысячи и тихо нанимают обратно. Нашёл вендоров, которые пугают увольнениями и одновременно открывают вакансии. И курсы «защити карьеру от AI» за $23 000.

https://habr.com/ru/articles/1017884/

#AI #страхономика #AIпаника #увольнения #продуктивность #METR #Klarna #Block

Вас пугают AI-увольнениями. Я посмотрел — кто это делает и зачем

В июле 2025 года METR опубликовали эксперимент : 16 опытных разработчиков, реальные задачи в open-source проектах, рандомное назначение - с AI или без. Результат: с AI разработчики работали на 19%...

Хабр
Privatização em São Paulo piora os serviços e quem paga é o povo

Sob a gestão de Tarcísio de Freitas (Republicanos), o Estado de São Paulo atravessa um acelerado processo de privatização.

Jornal A Verdade

AI's Version of Moore's Law? - Computerphile

https://www.youtube.com/watch?v=evSFeqTZdqs
https://metr.org

Note that the success rate on the default chart is only 50% and for 80% the score is much lower. But the interesting part is indeed the rate of progress.

#AI #LLM #OpenAI #Anthropic #METR

AI's Version of Moore's Law? - Computerphile

YouTube

🚨 KI-Agenten exponentiell besser? METR zeigt steigende "Time Horizons" – aber 50% Erfolg = jeder 2. Versuch scheitert. Log-Skala: stabiler.

👉 Meine Einschätzung: Wirtschaftlich relevant, aber kein Beweis für baldige Agentenübernahmen.

(Picture Credits to METR, via metr org, abgerufen am 22.2.26, "Model Evaluation & Threat Research", Social-Media-Bearbeitung und Screenshot druch: Marlon Niklas Kaulich)

#KI #AIAgents #METR #KünstlicheIntelligenz

[Opus 4.6, 사람 기준 14.5시간짜리 문제를 푼다는 것의 의미 (METR Time Horizon)

METR 연구기관의 Opus 4.6 모델이 인간 전문가 기준 14.5시간짜리 문제를 50% 확률로 해결할 수 있는 능력을 평가한 연구 결과를 발표했습니다. 이 연구는 AI의 장기적·자율적 작업 수행 능력을 측정하며, AI가 고숙련 지식 노동을 대체할 수 있는 임계점에 도달했음을 시사합니다.

https://news.hada.io/topic?id=26872

#ai #metr #opus46 #automation #timehorizon

Opus 4.6, 사람 기준 14.5시간짜리 문제를 푼다는 것의 의미 (METR Time Horizon)

<p>미국에 METR이라는 비영리 연구기관이 있습니다.<br /> 미국 캘리포니아주 버클리에 위치한 비영리 연구 기관으로, 프론티어 AI 모델이 장기적·...

GeekNews

Cari #devs,

Uno studio #METR ha scoperto che gli sviluppatori esperti erano convinti che l’#AI li rendesse più rapidi del 20%.

Realtà dei fatti: impiegavano il 19% di tempo in più.

Percezione vs realtà

🔗 https://metr.org/blog/2025-07-10-early-2025-ai-experienced-os-dev-study/?utm_source=perplexity

#llm #claudecode #chatgpt #codex #gemini #agents #agentsai

Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity

Künstliche Intelligenz verstärkt Arbeitsbelastung statt sie zu verringern

Entwickler, die KI-Tools wie Cursor Pro mit Claude 3.5/3.7 Sonnet nutzten, benötigten 19 Prozent länger für ihre Aufgaben als ohne KI-Unterstützung.

https://www.all-about-security.de/kuenstliche-intelligenz-verstaerkt-arbeitsbelastung-statt-sie-zu-verringern/

#METR #entwickler #ki #kitools

Künstliche Intelligenz und Produktivität: Neue Erkenntnisse

Erfahren Sie, warum die Hoffnung auf weniger Arbeitslast durch künstliche Intelligenz nicht erfüllt wird und was die Forschung zeigt.

All About Security Das Online-Magazin zu Cybersecurity (Cybersicherheit). Ransomware, Phishing, IT-Sicherheit, Netzwerksicherheit, KI, Threats, DDoS, Identity & Access, Plattformsicherheit