StepFun (@StepFun_ai)
Step 3.5 Flash 모델이 MathArena에서 1위를 차지했으며 전체 점수 96.11%, AIME 2026 I에서 97% 성능을 기록했습니다. 런당 비용은 $0.40로, 11B 액티브 파라미터 규모의 모델이 높은 성능과 저비용을 동시에 보여준 사례입니다.
StepFun (@StepFun_ai)
Step 3.5 Flash 모델이 MathArena에서 1위를 차지했으며 전체 점수 96.11%, AIME 2026 I에서 97% 성능을 기록했습니다. 런당 비용은 $0.40로, 11B 액티브 파라미터 규모의 모델이 높은 성능과 저비용을 동시에 보여준 사례입니다.
Gemini 2.5 gets 24.4% on MathArena USAMO beating previous top score of 4.7%
#HackerNews #Gemini2.5 #MathArena #USAMO #Score #TechNews #AI