Omar Sanseviero (@osanseviero)
Kaggle가 에이전트의 성능을 표준화해 평가할 수 있는 새로운 ‘Standardized Agent Exams’를 소개했다. 에이전트가 시험에 등록해 문제를 풀고 리더보드에 오를 수 있어, AI 에이전트 벤치마크와 비교 평가를 체계화하는 도구로 보인다.
Omar Sanseviero (@osanseviero)
Kaggle가 에이전트의 성능을 표준화해 평가할 수 있는 새로운 ‘Standardized Agent Exams’를 소개했다. 에이전트가 시험에 등록해 문제를 풀고 리더보드에 오를 수 있어, AI 에이전트 벤치마크와 비교 평가를 체계화하는 도구로 보인다.
L’armée de Terre étudie l’éventuel développement d’un casque balistique intégral
Artificial Analysis (@ArtificialAnlys)
AA-AgentPerf라는 에이전트 시대용 하드웨어 벤치마크가 소개됐다. 실제 코딩 에이전트의 작업 궤적을 기반으로 하며, 최대 200턴과 10만 토큰 이상의 긴 시퀀스를 다루는 실사용 워크로드를 평가하도록 설계됐다. 합성 쿼리가 아닌 생산 환경 중심의 벤치마크라는 점이 핵심이다.

Introducing AA-AgentPerf - the hardware benchmark for the agent era. Key details: ➤ Real agent workloads, not synthetic queries: we’ve captured real coding agent trajectories where our agents used up to 200 turns and worked with sequence lengths >100K tokens ➤ Production

B2B software vendor evaluation skill for Claude Code — domain-expert questions, vendor AI agent conversations, evidence-based scoring - salespeak-ai/buyer-eval-skill
Claude skill that evaluates B2B vendors by talking to their AI agents
https://github.com/salespeak-ai/buyer-eval-skill
#HackerNews #Claude #B2B #vendors #AI #agents #evaluation #sales #technology

B2B software vendor evaluation skill for Claude Code — domain-expert questions, vendor AI agent conversations, evidence-based scoring - salespeak-ai/buyer-eval-skill
Готовим ИИ-агента к продакшену
Всем привет! На связи Сергей Смирнов, действующий и практикующий AI-инженер. ИИ интересовал меня задолго до нынешнего хайпа: ещё со времён защиты кандидатской, он всегда был для меня не панацеей, а инструментом автоматизации и решения прикладных задач. С началом «эры» генеративного ИИ я занимаюсь разработкой агентских систем — и в этой статье хочу поделиться тем, что происходит, когда агента нужно не просто запустить, а сделать так, чтобы он работал надёжно, предсказуемо и без страха отдать его реальным пользователям. Это будет своего рода дорожная карта подготовки агента к продакшену .
https://habr.com/ru/companies/llmstart/articles/1015508/
#ииагенты #rag #aiagents #llm #agentic_ai #evaluation #observability #mcp