Yuchen Jin (@Yuchenj_UW)
PewDiePie가 코드 성능에서 Llama-4, DeepSeek v2.5, GPT-4o를 제쳤다고 주장하는 모델을 훈련했다고 밝힘. 해당 모델은 Qwen2.5-32B를 파인튜닝한 것으로, 주장된 우위는 단 하나의 벤치마크(Aider Polyglot)에서 나온 결과라 과대평가나 벤치마크 최적화 가능성(benchmaxxing)을 지적하는 내용임.
Yuchen Jin (@Yuchenj_UW)
PewDiePie가 코드 성능에서 Llama-4, DeepSeek v2.5, GPT-4o를 제쳤다고 주장하는 모델을 훈련했다고 밝힘. 해당 모델은 Qwen2.5-32B를 파인튜닝한 것으로, 주장된 우위는 단 하나의 벤치마크(Aider Polyglot)에서 나온 결과라 과대평가나 벤치마크 최적화 가능성(benchmaxxing)을 지적하는 내용임.