Bnaf.OG | (@bnafOg)

SWE-bench agentic 벤치마크와 스캐폴딩 레이어가 에이전틱 코딩 성능의 실제 기준이 되고 있지만, 50만 토큰 이상 장문 맥락에서의 일관성은 아직 충분히 측정되지 않았다고 지적합니다. 1T급 로컬 배포도 언급하며 실용적 모델 배포의 중요성을 강조합니다.

https://x.com/bnafOg/status/2047575382577078428

#agenticcoding #swebench #longcontext #llm #localdeployment

Bnaf.OG | 🟧 (@bnafOg) on X

@cedric_chee Agentic coding parity is real, but the benchmark is SWE-bench agentic with a scaffolding layer — which smooths over the model's raw multi-file reasoning. Long-context coherence at 500K+ real tokens (not synthetic NIAH) is still unmeasured. 1T local deploy: respect.

X (formerly Twitter)