RT @GenAI_is_real: Diese Rechnung ist korrekt, aber irreführend. Eine einzelne H100 für 6 Stunden am Tag liefert dir vielleicht ein quantisiertes 70B-Modell bei mittelmäßiger Durchsatzrate. Der Grund, warum Menschen 200 $ pro Monat für Claude oder ChatGPT Pro bezahlen, ist nicht die reine Rechenleistung, sondern die darauf aufbauende Serving-Optimierung – KV-Cache-Sharing über Anfragen hinweg, spekulatives Decoding, Continuous Batching, modellspezifisches Kernel-Tuning. Ein gut optimierter Serving-Stack erzielt pro GPU-Stunde 5- bis 10-mal mehr nützliche Arbeit als die Ausführung einer naiven Inferenz auf einer gemieteten H100. Man bezahlt nicht für die Hardware, man bezahlt für das Infrastructure Engineering, das die Hardware effizient macht. @ekzhang1 Eric Zhang (@ekzhang1) 200 $ pro Monat reichen aus, um eine H100 GPU für 6 Stunden an jedem Arbeitstag zu kaufen — https://nitter.net/ekzhang1/status/2043562453452128359#m
mehr auf Arint.info