Ivan Fioravanti ᯅ (@ivanfioravanti)

RepoBench는 모델의 코딩 능력 자체를 측정하기보다 대규모 컨텍스트 추론, 지시 준수, 파일 편집 정밀도를 더 반영한다고 지적하며, 최신 모델들이 이전 모델보다 약한 경우가 보인다고 코멘트함. RepoPrompt의 벤치 페이지 링크를 함께 공유함.

https://x.com/ivanfioravanti/status/2023444897806848112

#repoprompt #repobench #benchmark #llm #evaluation

Ivan Fioravanti ᯅ (@ivanfioravanti) on X

RepoBench does not reflect the coding skills of a model, more Large Context Reasoning, Instruction Adherence and File Editing Precision. But it's funny seeing newer models being less strong than previous ones 👀 Link here: https://t.co/Kgwdkhs7pY

X (formerly Twitter)