Aurora: A Leverage-Aware Optimizer for Rectangular Matrices
Aurora는 Muon 옵티마이저의 문제점인 MLP 층에서 뉴런이 죽는 현상을 row-norm 균일성과 직교성 제약을 동시에 만족하는 최적화 문제로 재정의하여 해결한 새로운 옵티마이저입니다. Aurora는 11억 파라미터 모델 학습에서 기존 Muon과 NorMuon 대비 데이터 효율성을 100배 향상시키고, nanoGPT 스피드런에서 최신 SoTA를 경신했습니다. 또한 Aurora는 직교성 정밀도를 유지하면서 뉴런 사망을 방지해 대규모 MLP 확장 네트워크에 특히 효과적입니다. 코드가 오픈소스로 공개되어 있어 실무 적용이 용이합니다.







