Alexander Golubev (@agolubev13)
SWE-rebench의 1월 업데이트가 공개되었고 랭킹 변화가 반영되었습니다. 여전히 상용 모델과 오픈소스 간 격차가 존재하지만, Alibaba Qwen 팀이 80B-A3B 모델로 대형 경쟁자들과 겨루는 성과를 보이며 주목을 받고 있다는 내용입니다. 오픈소스 LLM 성능 개선과 경쟁력 상승을 보여주는 벤치마크 뉴스입니다.

Alexander Golubev (@agolubev13) on X
The SWE-rebench January update is live, and it's exciting to see the new rankings! https://t.co/jAwvMFn8YS While there's still a gap between proprietary and open-source, congrats to the @Alibaba_Qwen team. Competing with giants using an 80B-A3B model is pretty cool. I guess we