Omar Sanseviero (@osanseviero)

Kaggle가 에이전트의 성능을 표준화해 평가할 수 있는 새로운 ‘Standardized Agent Exams’를 소개했다. 에이전트가 시험에 등록해 문제를 풀고 리더보드에 오를 수 있어, AI 에이전트 벤치마크와 비교 평가를 체계화하는 도구로 보인다.

https://x.com/osanseviero/status/2039246602255114650

#kaggle #aiagents #benchmark #evaluation #llm

Omar Sanseviero (@osanseviero) on X

Introducing Kaggle Standardized Agent Exams 🔥 Let your agents register to an exam, solve it, and join the leaderboard

X (formerly Twitter)

L’armée de Terre étudie l’éventuel développement d’un casque balistique intégral

https://fed.brid.gy/r/https://www.opex360.com/2026/03/29/larmee-de-terre-etudie-eventuel-developpement-dun-casque-balistique-integral/

Luke Powers sent for psychiatric assessment after alleged Moncton assault
A man accused of assaulting a musician in Moncton earlier this month has been sent for a psychiatric evaluation.
https://www.cbc.ca/news/canada/new-brunswick/luke-powers-moncton-assessment-9.7144843?cmp=rss

Artificial Analysis (@ArtificialAnlys)

AA-AgentPerf라는 에이전트 시대용 하드웨어 벤치마크가 소개됐다. 실제 코딩 에이전트의 작업 궤적을 기반으로 하며, 최대 200턴과 10만 토큰 이상의 긴 시퀀스를 다루는 실사용 워크로드를 평가하도록 설계됐다. 합성 쿼리가 아닌 생산 환경 중심의 벤치마크라는 점이 핵심이다.

https://x.com/ArtificialAnlys/status/2037562417836929315

#benchmark #agents #llm #hardware #evaluation

Artificial Analysis (@ArtificialAnlys) on X

Introducing AA-AgentPerf - the hardware benchmark for the agent era. Key details: ➤ Real agent workloads, not synthetic queries: we’ve captured real coding agent trajectories where our agents used up to 200 turns and worked with sequence lengths >100K tokens ➤ Production

X (formerly Twitter)
Stellenausschreibungen - Berlin.de

Aktuelle Stellenausschreibungen der Stadtbibliothek Berlin-Mitte

Request for proposals are necessary to see who is willing to provide a product or service for you by shopping it to companies, and not always for the most competitive price as there can be other factors. #business #supplier #evaluation #rfp #proposal
🤖🤦‍♂️ Ah, finally! The ultimate AI-powered skill to rate #B2B #vendors by chit-chatting with their bots, because clearly that's the pinnacle of due diligence. Surely, nothing screams "reliable evaluation" like a couple of AIs gossiping over virtual tea. 🫖🔍
https://github.com/salespeak-ai/buyer-eval-skill #AI #Chatbot #Evaluation #DueDiligence #VirtualTea #HackerNews #ngated
GitHub - salespeak-ai/buyer-eval-skill: B2B software vendor evaluation skill for Claude Code — domain-expert questions, vendor AI agent conversations, evidence-based scoring

B2B software vendor evaluation skill for Claude Code — domain-expert questions, vendor AI agent conversations, evidence-based scoring - salespeak-ai/buyer-eval-skill

GitHub
GitHub - salespeak-ai/buyer-eval-skill: B2B software vendor evaluation skill for Claude Code — domain-expert questions, vendor AI agent conversations, evidence-based scoring

B2B software vendor evaluation skill for Claude Code — domain-expert questions, vendor AI agent conversations, evidence-based scoring - salespeak-ai/buyer-eval-skill

GitHub

Готовим ИИ-агента к продакшену

Всем привет! На связи Сергей Смирнов, действующий и практикующий AI-инженер. ИИ интересовал меня задолго до нынешнего хайпа: ещё со времён защиты кандидатской, он всегда был для меня не панацеей, а инструментом автоматизации и решения прикладных задач. С началом «эры» генеративного ИИ я занимаюсь разработкой агентских систем — и в этой статье хочу поделиться тем, что происходит, когда агента нужно не просто запустить, а сделать так, чтобы он работал надёжно, предсказуемо и без страха отдать его реальным пользователям. Это будет своего рода дорожная карта подготовки агента к продакшену .

https://habr.com/ru/companies/llmstart/articles/1015508/

#ииагенты #rag #aiagents #llm #agentic_ai #evaluation #observability #mcp

Готовим ИИ-агента к продакшену

Готовим ИИ-агента к продакшену Всем привет! На связи Сергей Смирнов, AI-инженер в LLMStart. ИИ интересовал меня задолго до нынешнего хайпа: ещё со времён защиты кандидатской, он всегда был для меня не...

Хабр
Stellenausschreibungen - Berlin.de

Aktuelle Stellenausschreibungen der Stadtbibliothek Berlin-Mitte