Chasing AI Memory SOTA: Beating the Benchmark, Missing the Point

이 글은 AI 메모리 시스템의 최신 벤치마크 점수들이 실제 성능을 제대로 반영하지 못하는 문제를 지적한다. 대표적인 메모리 벤치마크인 LoCoMo와 LongMemEval의 한계와 데이터셋의 인위성, 모호한 평가 기준, 그리고 실제 운영 환경에서 요구되는 다양한 메모리 기능을 제대로 테스트하지 못하는 점을 상세히 분석한다. 또한 벤치마크 결과가 하이퍼파라미터 설정, 평가자 모델 등에 크게 의존해 비교가 어렵다는 점도 강조한다. 결국 SOTA 점수는 제한된 조건 하에서의 실험 결과일 뿐, 실제 메모리 문제 해결이나 사용자 경험 개선을 보장하지 않는다고 결론짓는다.

https://xmemory.ai/chasing-sota-in-ai-memory/

#aimemory #benchmark #evaluation #longmemeval #locomo

Chasing AI memory SOTA: Beating the Benchmark, Missing the Point

Why agentic memory benchmark numbers can be noisy, and what we should measure instead.

xmemory Website

BOOTOSHI (@KingBootoshi)

다양한 에이전틱 하니스, 도구, 평가, 메모리 아이디어를 시험하며 LongMemEval에 대해 자동 연구를 돌려 99% 수준의 성능을 달성하는 하니스를 만들려는 실험이 진행 중이라고 언급했다. 에이전트 평가와 장기 메모리 연구가 결합된 흥미로운 시도다.

https://x.com/KingBootoshi/status/2036352821474533626

#agentic #evaluation #longmemeval #memory #research

BOOTOSHI 👑 (@KingBootoshi) on X

this has been running all day i have it trying a bunch of agentic harnesses, tools, evals, ideas with memory and running auto research against LongMemEval to see if it can create a harness that gets to 99% like a post i saw the other day on here one piece at a time. so cool!

X (formerly Twitter)

Dan McAteer (@daniel_mac8)

LongMemEval에서 약 99% 결과를 보이는 Agentic Search와 Memory Retrieval 방식이 소개됐다. 벡터DB나 임베딩 트릭이 아니라, 특화된 병렬 에이전트를 활용해 에이전트 메모리 문제를 해결할 수 있다는 주장으로, 검증되면 중요한 기술적 진전이다.

https://x.com/daniel_mac8/status/2035735706052493465

#agenticsearch #memoryretrieval #aimemory #longmemeval #agents

Dan McAteer (@daniel_mac8) on X

If this Agentic Search and Memory Retrieval result of ~99% on LongMemEval proves legit—we find out in a couple weeks—AI agent memory is solved (within context limits). It’s not some special embedding/vector DB trick, it’s throwing specialized parallel agents at the problem. The

X (formerly Twitter)