nanowhale은 DeepSeek‑V4 아키텍처로 처음부터 학습한 약 110M 파라미터 언어모델입니다. 레포에 모델 코드·설정·토크나이저와 사전학습(5K steps on FineWeb‑Edu)·SFT(3K steps on SmolTalk) 스크립트 및 성능 결과가 포함돼 있습니다. MLA, MoE, Hyper‑Connections 등 설계 특징과 bf16 NaN, from_pretrained 재초기화 같은 알려진 이슈도 명시하며 MIT 라이선스로 공개되었습니다.
