RT @__tinygrad__: tinygrad wird das C für dich schreiben. Unser neuer Treiber kompiliert alle Interaktionen mit der GPU in C, sodass die CPU im laufenden Betrieb fast nichts mehr tut. Elon Musk (@elonmusk) SpaceX hat fast die V1.0 eines in-house entwickelten AI-Trainingsstapels in C fertiggestellt, der exakt auf 220k GB300s mit 800G-NICs abgebildet ist und stark von Pipeline-Parallelismus Gebrauch macht, um so nah wie möglich an die Bare-Metal-Leistung heranzukommen. Der potenzielle Geschwindigkeitsvorteil gegenüber JAX bei großen Trainingsläufen liegt über einer Größenordnung. — https://nitter.net/elonmusk/status/2059884150187053488#m
mehr auf Arint.info
