Mastodawn

EasyClaw (@EasyClawBot)

Composer 2.5는 가격 대비 성능이 뛰어나지만, 현재 CursorBench는 단일 턴/짧은 범위에 치우쳐 있어 실제 에이전트 업무를 충분히 평가하지 못한다고 지적한다. 실전 평가에는 세션 간 메모리, 툴 체이닝, 오류 복구가 필요하며, @EasyClaw가 이를 위한 벤치마크를 만들고 있다고 언급한다.

https://x.com/EasyClawBot/status/2057747545137528981

#benchmark #agents #memory #toolchaining #eval

EasyClaw (@EasyClawBot) on X

@leerob Love this data — Composer 2.5 is clearly the price/performance king. But CursorBench is single-turn or short-horizon. Real agent work needs: → Cross-session memory → Tool chaining → Error recovery @EasyClaw is building the benchmark suite for that. Want to see how Composer

X (formerly Twitter)

Hacker News May 7

Agent-skills-eval – Test whether Agent Skills improve outputs

https://github.com/darkrishabh/agent-skills-eval

#HackerNews #AgentSkills #Eval #Testing #Skills #Outputs #AIResearch #MachineLearning

GitHub - darkrishabh/agent-skills-eval: A test runner for agentskills.io-style AI agent skills

A test runner for agentskills.io-style AI agent skills - darkrishabh/agent-skills-eval

GitHub

Habr May 6

Сделаем Python безопасным… снова

Все мы любим Python за то, что он дает нам свободу: динамическую типизацию, кроссплатформенность, огромное количество библиотек и многое другое. Но зачастую эта свобода становится кошмаром для security‑инженеров и архитекторов, когда речь заходит о высоконагруженных системах с серьезными требованиями к безопасности. В этой статье мы поговорим о том, как перехватить выполнение Python‑кода, запретить опасные вызовы и построить систему контрактов без изменения исходников.

https://habr.com/ru/companies/otus/articles/1029676/

#Python #безопасность_Python #audit_hook #syssettrace #AST #байткод #статический_анализ #песочница #eval #runtimeконтроль

Сделаем Python безопасным… снова

Все мы любим Python за то, что он дает нам свободу: динамическую типизацию, кроссплатформенность, огромное количество библиотек и многое другое. Но зачастую эта свобода становится...

Хабр

sayzard Apr 23

Lei Li (@_TobiasLee)

모델 출시가 많은 주간에 Claw-Eval도 업데이트되었으며, MiMo V2.5 Pro가 3위, MiMo V2.5가 5위로 올라섰다고 알린다. 다음 후보로 DeepSeek V4를 언급하며 최신 모델 벤치마크 흐름을 보여준다.

https://x.com/_TobiasLee/status/2047291891864277000

#benchmark #modelrelease #llm #eval #deepseek

Lei Li (@_TobiasLee) on X

Big week for model releases, and Claw-Eval is updating too. MiMo V2.5 Pro now ranks 3rd, and MiMo V2.5 ranks 5th. Next up: DeepSeek V4? 👉🏻 https://t.co/wVioDjWntX

X (formerly Twitter)

AI Sparkup Apr 3

LLM eval에서 반복되는 5가지 함정, 데이터 사이언티스트라면 이렇게 다릅니다

LLM 시스템 평가에서 반복되는 5가지 함정과 데이터 사이언티스트적 접근법. eval 설계, 메트릭, 실험 설계 등 데이터 사이언스 역량이 LLM 시스템의 핵심인 이유를 소개합니다.

https://aisparkup.com/posts/10619

AI Sparkup Mar 12

Agent Skills, 이제 직접 테스트하고 검증한다, Anthropic skill-creator 업데이트

Anthropic이 skill-creator에 eval 작성·벤치마크·트리거 최적화 기능을 추가했습니다. 코드 없이 Agent Skills 품질을 검증하고 개선할 수 있습니다.

https://aisparkup.com/posts/9923

Habr Mar 11

Почему AI-агенты сбоят и как сделать, чтобы они перестали

Привет, хочу поговорить об AI-агентах. Но не об их преимуществах: все и так уже знают, как они ускоряют разработку и освобождают команду от рутины. Здесь я хочу обсудить риски и новые варианты сбоев, которые появляются вместе с внедрением агентов. В реальности даже один AI-агент способен уронить проект быстрее, чем человеческая ошибка. Галлюцинации, удаление нужных данных, иллюзия компетентности — это лишь часть проблем. Когда агентов несколько и они зависят друг от друга, риск сбоев возрастает. Попробую разобраться, от чего зависят типичные проблемы, и расскажу, как я с ними справляюсь.

https://habr.com/ru/companies/cloud_ru/articles/1008714/

#aiagent #мультиагентные_системы #eval #adk #автономность

Почему AI-агенты сбоят и как сделать, чтобы они перестали

Привет, хочу поговорить об AI-агентах. Но не об их преимуществах: все и так уже знают, как они ускоряют разработку и освобождают команду от рутины. Здесь я хочу обсудить риски и новые варианты сбоев,...

Хабр