Andrej Karpathy (@karpathy)

autoresearch가 depth=12 nanochat 모델을 약 이틀간 자동 튜닝해 검증 손실을 개선한 약 20가지 변경점을 발견했고, 어제 테스트 결과 이 변경점들이 모두 더해져 더 큰(depth=24) 모델에도 전이되어 성능 향상을 가져왔다는 발표입니다. 여러 변경을 쌓아 올린 결과라는 점에서 모델 최적화 자동화와 전이 가능성에 대한 실무적 시사점이 큽니다.

https://x.com/karpathy/status/2031135152349524125

#autoresearch #nanochat #modeltuning #ml #research

Andrej Karpathy (@karpathy) on X

Three days ago I left autoresearch tuning nanochat for ~2 days on depth=12 model. It found ~20 changes that improved the validation loss. I tested these changes yesterday and all of them were additive and transferred to larger (depth=24) models. Stacking up all of these changes,

X (formerly Twitter)
Fine-Tuning Fundamentals - Generative AI For Beginners (v2)

Want to understand the concepts and workflow for #FineTuning your language models? Explore the https://aka.ms/genai-beginners open-source curriculum & skill yourself up with lessons and hands-on exercises.

DEV Community