Mastodawn

Как тестируют кодинг-агентов в 2026 — и почему вашему продакшну нужен свой бенчмарк

Ни для кого не секрет, что эра «спросить что-то у GPT» постепенно уходит в прошлое. На смену генеративному AI приходит Agentic AI, который не просто проконсультирует, а по вашему запросу придёт и сделает все сам. То же самое и с кодовыми агентами, они не просто отвечают на вопросы, они читают документацию, работают в терминале, дёргают API, правят файлы и в идеале закрывают задачу целиком, от тикета до мёрж-реквеста. Звучит здорово, пока не выясняется, что ваш агент починил баг, сломав при этом три соседних модуля, или молча проигнорировал половину требований из задачи. Короче говоря, агенты умеют халтурить, и делают это красиво. А значит, их нужно постоянно тестировать. Причем тестировать в условиях, максимально приближённых к рабочим: с реальным репозиторием, CI-пайплайном и набором тестов, которые не обманешь. Именно для этого в AI-сообществе появился целый класс таких инструментов как бенчмарки и песочницы, заточенные под оценку агентов. В этой статье мы разберём, какие подходы к тестированию кодинг-агентов существуют сегодня, в чём их сильные и слабые стороны, и расскажем, как мы в

https://habr.com/ru/companies/doubletapp/articles/1040698/

#ml #ai #benchmark #aiагенты #aiagent #swebench #swebench_verified #OSWorld #GAIA #terminalbench

Как тестируют кодинг-агентов в 2026 — и почему вашему продакшну нужен свой бенчмарк

Хабр

AI Sparkup Sep 30, 2025

Claude Sonnet 4.5, AI 코딩 모델의 새로운 챔피언

Anthropic의 Claude Sonnet 4.5가 SWE-bench에서 70.6%를 기록하며 GPT-5를 제치고 1위에 올랐다. 30시간 이상 자율 코딩이 가능하며 다양한 산업에서 실질적 성과를 보이고 있다.

https://aisparkup.com/posts/5213

michabbb Oct 22, 2024

🚀 #Anthropic announces major updates to their #AI model lineup:

💻 Upgraded #Claude35Sonnet shows significant improvements:
• Achieves 49% on #SWEbench Verified coding benchmark
• Leads in software engineering capabilities
• Maintains same price and speed as predecessor
• Tested by US and UK #AI Safety Institutes

🔄 New #Claude35Haiku introduction:
• Matches #Claude3Opus performance at lower cost
• Scores 40.6% on SWEbench Verified
• Optimized for user-facing products
• Available across multiple cloud platforms

🖱️ Pioneering #ComputerUse beta feature:
• Allows AI to navigate interfaces like humans
• Scores 22% on #OSWorld benchmark
• Currently in experimental phase
• Supported by new safety classifiers

⚡ Enterprise adoption:
• #GitLab reports 10% improvement in DevSecOps tasks
• #Replit leverages computer use for app evaluation
• #Cognition notes enhanced problem-solving capabilities

https://www.anthropic.com/news/3-5-models-and-computer-use

Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku

A refreshed, more powerful Claude 3.5 Sonnet, Claude 3.5 Haiku, and a new experimental AI capability: computer use.