BOOTOSHI (@KingBootoshi)

다양한 에이전틱 하니스, 도구, 평가, 메모리 아이디어를 시험하며 LongMemEval에 대해 자동 연구를 돌려 99% 수준의 성능을 달성하는 하니스를 만들려는 실험이 진행 중이라고 언급했다. 에이전트 평가와 장기 메모리 연구가 결합된 흥미로운 시도다.

https://x.com/KingBootoshi/status/2036352821474533626

#agentic #evaluation #longmemeval #memory #research

BOOTOSHI 👑 (@KingBootoshi) on X

this has been running all day i have it trying a bunch of agentic harnesses, tools, evals, ideas with memory and running auto research against LongMemEval to see if it can create a harness that gets to 99% like a post i saw the other day on here one piece at a time. so cool!

X (formerly Twitter)