Andrej Karpathy (@karpathy)

autoresearch가 depth=12 nanochat 모델을 약 이틀간 자동 튜닝해 검증 손실을 개선한 약 20가지 변경점을 발견했고, 어제 테스트 결과 이 변경점들이 모두 더해져 더 큰(depth=24) 모델에도 전이되어 성능 향상을 가져왔다는 발표입니다. 여러 변경을 쌓아 올린 결과라는 점에서 모델 최적화 자동화와 전이 가능성에 대한 실무적 시사점이 큽니다.

https://x.com/karpathy/status/2031135152349524125

#autoresearch #nanochat #modeltuning #ml #research

Andrej Karpathy (@karpathy) on X

Three days ago I left autoresearch tuning nanochat for ~2 days on depth=12 model. It found ~20 changes that improved the validation loss. I tested these changes yesterday and all of them were additive and transferred to larger (depth=24) models. Stacking up all of these changes,

X (formerly Twitter)
Ah yes, we've reached the zenith of #AI #enlightenment where 'agents' conduct 'research' on a 'nanochat' with a singular GPU — the equivalent of having a hamster power your nuclear reactor 🚀🔍⚡. Is this #progress or is the tech world just throwing #buzzwords on a digital dartboard and calling it innovation? 😂🤖
https://github.com/karpathy/autoresearch #Nanochat #Innovation #HackerNews #ngated
GitHub - karpathy/autoresearch: AI agents running research on single-GPU nanochat training automatically

AI agents running research on single-GPU nanochat training automatically - karpathy/autoresearch

GitHub

Autoresearch: Agents researching on single-GPU nanochat training automatically

https://github.com/karpathy/autoresearch

#HackerNews #Autoresearch #Nanochat #AI #SingleGPU #MachineLearning

GitHub - karpathy/autoresearch: AI agents running research on single-GPU nanochat training automatically

AI agents running research on single-GPU nanochat training automatically - karpathy/autoresearch

GitHub

Andrej Karpathy (@karpathy)

nanochat이 단일 8x H100 노드에서 GPT-2 역량 모델을 약 2시간 만에 학습시켰다고 발표했습니다(한 달 전 약 3시간에서 단축). fp8 지원과 여러 튜닝, 그리고 데이터셋을 FineWeb-edu에서 변경한 것이 주요 개선 포인트로, 실시간 인터랙티브 학습에 한층 근접했다는 기술적 진전입니다.

https://x.com/karpathy/status/2029701092347630069

#nanochat #gpt2 #training #h100 #fp8

Andrej Karpathy (@karpathy) on X

nanochat now trains GPT-2 capability model in just 2 hours on a single 8XH100 node (down from ~3 hours 1 month ago). Getting a lot closer to ~interactive! A bunch of tuning and features (fp8) went in but the biggest difference was a switch of the dataset from FineWeb-edu to

X (formerly Twitter)

🚀 Đánh bại GPT-2 với chi phí dưới $100! Andrej Karpathy chia sẻ hành trình nanochat - chỉ 3 giờ huấn luyện trên 8×H100 đã vượt qua GPT-2 trong benchmark CORE. Bài viết tiết lộ chi tiết kiến trúc, tối ưu hóa và script để tái tạo kết quả.

#AI #MachineLearning #TríTuệNhânTạo #HọcMáy #NanoChat #GPT2

https://www.reddit.com/r/LocalLLaMA/comments/1qsj8x4/beating_gpt2_for_100_the_nanochat_journey/

#nanochat #AMD #AI #MáyHọc #CôngNghệ
Phân tích từ đầu tới cuối về nanochat với phần cứng AMD MI300X và tín dụng phát triển. Bài viết cập nhật tiến trình xây dựng mô hình, bao gồm RMSNorm, RoPE, GQA và KVCache. Tiếp theo: Muon, DistAdamW. Mời mọi người góp ý, phản hồi để cải thiện!

#AIimplementation #MachineLearning #AMDmi300x #Code #Math #Debug #VietnamAI #Transformer #OpenSource

https://www.reddit.com/r/LocalLLaMA/comments/1phkefq/implementing_nanochat_using_amds_mi300x_hardware/

NanoChat đã chính thức được tích hợp vào thư viện Hugging Face Transformers! Bài viết chuyên sâu mới nhất đi sâu vào kiến trúc NanoChat, quy trình tích hợp và hướng dẫn sử dụng các công cụ như Torch, TRL, vLLM cho suy luận và huấn luyện. Khám phá ngay!

#NanoChat #Transformers #HuggingFace #AIVietnam #MôHìnhAI #HọcMáy #AI #MachineLearning #DeepLearning #LLM #NLP #TechNews

https://www.reddit.com/r/LocalLLaMA/comments/1p85sj8/deep_dive_article_nanochat_is_in_transformers/

Got my nanochat mode for Emacs working :)

Elisp has surprisingly good network socket support...but creating a new mode involved reading some very s p a r s e documentation

Ideally, I'd have a mode that uses an "input line" at the bottom, and "text lines" above it. But I couldn't figure it out, so I just output to the buffer and enter commands using the minibuffer

https://patpatpat.xyz/data/emacs/nanochat.el

#emacs #nanochat

Benchmarking Nanochat vs GPT-2: What a $100 LLM Can (and Can’t) Do

A head-to-head comparison revealing strengths, weaknesses and trade-offs in small-model training.

Medium

Practicing #TUI app development with #python #textual package.

Femtochat is a #nanochat client for staying in the #uxn loop.