AI doomsday cultist throws Molotov at Sam Altman’s house
AI doomsday cultist throws Molotov at Sam Altman’s house
Claude Mythos, Java 26 и пещерный человек с 16 000 звёзд на GitHub
Девятый выпуск еженедельных IT-новостей от OpenIDE. Милла Йовович выложила свой проект в open-source, Claude Code нашел баг в Linux, которому 23 года, Anthropic показали Claude Mythos и сразу закрыли доступ. А Skill Caveman внезапно оказался самым простым и самым эффективным инструментом недели.
https://habr.com/ru/companies/haulmont/articles/1023450/
#Claude_Mythos #Claude_Code #Java_26 #opensource #ИИагенты #токены #CaveMan #GPT2 #бенчмарки #vibecoding
Mark Gadala-Maria (@markgadala)
GPT-2 Image가 유출됐다는 주장과 함께, 생성 이미지가 이제 더 이상 AI 티가 나지 않을 정도로 자연스러워졌다고 소개했다. Minecraft 스크린샷 같은 예시를 통해 이미지 생성 모델의 품질이 크게 향상됐음을 강조하는 화제성 높은 AI 이미지 기술 소식이다.
Andrej Karpathy (@karpathy)
nanochat이 단일 8x H100 노드에서 GPT-2 역량 모델을 약 2시간 만에 학습시켰다고 발표했습니다(한 달 전 약 3시간에서 단축). fp8 지원과 여러 튜닝, 그리고 데이터셋을 FineWeb-edu에서 변경한 것이 주요 개선 포인트로, 실시간 인터랙티브 학습에 한층 근접했다는 기술적 진전입니다.

nanochat now trains GPT-2 capability model in just 2 hours on a single 8XH100 node (down from ~3 hours 1 month ago). Getting a lot closer to ~interactive! A bunch of tuning and features (fp8) went in but the biggest difference was a switch of the dataset from FineWeb-edu to
Gabriele Berton (@gabriberton)
Andrej Karpathy의 레시피로 GPT-2 1.5B 모델 훈련 비용을 약 $43,000에서 $73로 대폭 절감했다는 주장. 7년간의 개선을 10개 항목으로 정리하며, 특히 기존 LLM에서 잘 보이지 않던 'Value Embeddings' 같은 기법을 소개함.
The most interesting thing I've seen in a while The recipe by @karpathy to reduce GPT2-1.5B training cost from 43000$ to 73$! 7 years of improvements over vanilla GPT in 10 points Let's start from the uncommon ones: 1) Value Embeddings: I've never seen this in any LLM, [1/N]
Christopher READ PINNED (@Thee_BlackMamba)
작성자는 GPT-2 모델을 원래 550MB에서 수 KB로 극단적으로 압축하여 추론을 실행했다고 주장합니다. 현재는 구조적으로 그럴듯한 단어를 출력할 수 있으나 의미 학습이 필요해 일관된 문장 생성을 위해 추가 훈련이 요구된다고 설명하며, Andrej Karpathy를 멘션했습니다.
I was successfully able to compress GPT-2 down from it's original 550mb size to just a few KB and run inference on it. It can now out structurally sound words ... however it still needs to be trained on the meanings of the words to be able to output coherent sentences @karpathy