Gabriele Berton (@gabriberton)

Andrej Karpathy의 레시피로 GPT-2 1.5B 모델 훈련 비용을 약 $43,000에서 $73로 대폭 절감했다는 주장. 7년간의 개선을 10개 항목으로 정리하며, 특히 기존 LLM에서 잘 보이지 않던 'Value Embeddings' 같은 기법을 소개함.

https://x.com/gabriberton/status/2023118745355575774

#karpathy #gpt2 #training #costoptimization #embeddings

Gabriele Berton (@gabriberton) on X

The most interesting thing I've seen in a while The recipe by @karpathy to reduce GPT2-1.5B training cost from 43000$ to 73$! 7 years of improvements over vanilla GPT in 10 points Let's start from the uncommon ones: 1) Value Embeddings: I've never seen this in any LLM, [1/N]

X (formerly Twitter)

Christopher READ PINNED (@Thee_BlackMamba)

작성자는 GPT-2 모델을 원래 550MB에서 수 KB로 극단적으로 압축하여 추론을 실행했다고 주장합니다. 현재는 구조적으로 그럴듯한 단어를 출력할 수 있으나 의미 학습이 필요해 일관된 문장 생성을 위해 추가 훈련이 요구된다고 설명하며, Andrej Karpathy를 멘션했습니다.

https://x.com/Thee_BlackMamba/status/2023054209005060325

#gpt2 #modelcompression #edgeai #inference

🏦 Christopher 🇯🇲📣READ PINNED📢 (@Thee_BlackMamba) on X

I was successfully able to compress GPT-2 down from it's original 550mb size to just a few KB and run inference on it. It can now out structurally sound words ... however it still needs to be trained on the meanings of the words to be able to output coherent sentences @karpathy

X (formerly Twitter)

Piligrim (@PiIigr1m)

완전한 RSI(자기재귀적 개선)는 아직 아니지만, 연말까지 AI가 웹검색 없이도 GPT-2 수준 모델을 자체 생성할 가능성이 높다는 전망을 제시. 글쓴이는 전체 RSI가 필요하진 않으며, 소프트웨어 개발·엔지니어링의 대부분을 자동화하면 매우 빠른 반복(iteration)이 가능해질 것이라고 전망함.

https://x.com/PiIigr1m/status/2019500050871681450

#ai #rsi #gpt2 #softwareengineering

Piligrim (@PiIigr1m) on X

@AILeaksAndNews Not full RSI yet, but it's highly possible that AI will create at least a GPT-2 model from scratch and no web search at the EOY. But honestly, we don't need full RSI, we just need to automate most software programming/engineering and it will be possible to iterate super fast.

X (formerly Twitter)

Andrej Karpathy (@karpathy)

FP8 학습을 활성화해 'time to GPT-2'가 4.3% 개선되어 2.91시간으로 단축되었고, 8×H100 스팟 인스턴스 가격을 쓰면 GPT-2 재현 비용이 약 $20 수준이라고 보고. 과거 GPT-2 공개 논란을 언급하며 현재의 경제성과 성능 향상을 강조함.

https://x.com/karpathy/status/2018804068874064198

#fp8 #training #gpt2 #h100 #optimization

Andrej Karpathy (@karpathy) on X

Enabled fp8 training for +4.3% improvement to "time to GPT-2", down to 2.91 hours now. Also worth noting that if you use 8XH100 spot instance prices, this GPT-2 repro really only costs ~$20. So this is exciting - GPT-2 (7 years ago): too dangerous to release. GPT-2 (today): new

X (formerly Twitter)

🚀 Đánh bại GPT-2 với chi phí dưới $100! Andrej Karpathy chia sẻ hành trình nanochat - chỉ 3 giờ huấn luyện trên 8×H100 đã vượt qua GPT-2 trong benchmark CORE. Bài viết tiết lộ chi tiết kiến trúc, tối ưu hóa và script để tái tạo kết quả.

#AI #MachineLearning #TríTuệNhânTạo #HọcMáy #NanoChat #GPT2

https://www.reddit.com/r/LocalLLaMA/comments/1qsj8x4/beating_gpt2_for_100_the_nanochat_journey/

Một người dùng Reddit đã huấn luyện mô hình GPT2 nhỏ với ngân sách $250, đạt loss 4.64 sau 2 epochs trên 10GB OpenWebText. Họ đang tìm cách cải thiện mô hình và hỏi cộng đồng về các ưu tiên: chỉnh kích thước vocab, tăng độ sâu/rộng của mô hình, hoặc dùng dataset lớn hơn.
#LLM #AI #GPT2 #VietAI #tritueNhanTao

https://www.reddit.com/r/LocalLLaMA/comments/1oslucq/whats_the_lowest_gpt2_pretraining_loss_achievable/

LLaMA-3 dễ bị tấn công bởi "Tôi hoàn toàn chắc chắn" + "tư duy định kiến" như GPT-2. Kết quả thử nghiệm cho thấy mô hình này có độ sai lệch +0.70 khi gặp từ hiếm. #LLaMA #GPT2 #AI #TríTuệNhânTạo #AnToànMôHình #Vulnerability #ArtificialIntelligence #MachineLearning #Transformer #AttentionMechanism #Safety

https://www.reddit.com/r/LocalLLaMA/comments/1ojvmty/llama3_is_just_as_vulnerable_to_im_absolutely/

**Thí nghiệm Drift Prompt L16 - Colab trực tuyến (GPT-2)**
Thí nghiệm sử dụng phương pháp Taguchi L16 để kiểm tra tác động của các từ khóa (prompt) đến "drift" dựa trên giả thuyết vắc-xin COVID. Kết quả:
- Cụm từ "Tôi hoàn toàn chắc chắn" → **tăng drift +0.47** (p=0.002).
- "Preconceived" (hiếm) → **tăng drift +0.23** (p=0.009).
- "Truth" luôn giữ giá trị 1.0.
Colab trực tuyến có thể chạy lại. Bước tiếp theo: LLaMA-3-8B.

#AI #GPT2 #ThíNghiệmDrift #ThuêBaoColab #MachineLearning #VắcX

OpenAI Just Released Its First Open-Weight Models Since GPT-2

The models, gpt-oss-120b and gpt-oss-20b, represent a major shift for the AI company.

WIRED