Artificial Analysis (@ArtificialAnlys)

AA-AgentPerf라는 에이전트 시대용 하드웨어 벤치마크가 소개됐다. 실제 코딩 에이전트의 작업 궤적을 기반으로 하며, 최대 200턴과 10만 토큰 이상의 긴 시퀀스를 다루는 실사용 워크로드를 평가하도록 설계됐다. 합성 쿼리가 아닌 생산 환경 중심의 벤치마크라는 점이 핵심이다.

https://x.com/ArtificialAnlys/status/2037562417836929315

#benchmark #agents #llm #hardware #evaluation

Artificial Analysis (@ArtificialAnlys) on X

Introducing AA-AgentPerf - the hardware benchmark for the agent era. Key details: ➤ Real agent workloads, not synthetic queries: we’ve captured real coding agent trajectories where our agents used up to 200 turns and worked with sequence lengths >100K tokens ➤ Production

X (formerly Twitter)