RT @witcheer: TRANSLASATION: OpenAI's GPT-OSS-120B läuft auf einer einzelnen RTX 5090. Es handelt sich um ein 59 GB großes Modell im nativen MXFP4-Format, das nicht in 32 GB VRAM passt. Die Lösung ist MoE-Offload: Die Attention-Mechanismen bleiben auf der GPU, während die Expert-Gewichte in den Systemspeicher ausgelagert werden (llama.cpp --n-cpu-moe). Auf diese Weise feuern nur 5,1 Mrd. von 117 Mrd. Parametern pro Token, sodass die CPU-Seite kostengünstig bleibt. Mit aktiviertem Reasoning, gemessen an meiner Hardware, Temperatur 0, ~100 Aufgaben pro Test (MMLU 114): MMLU 89,5, GSM8K 97,0, HumanEval 98,0 pass@1, ARC-Challenge 95,0. Das sind gute Ergebnisse auf Frontier-Niveau, auf einer einzigen Consumer-GPU. Allerdings ist es ziemlich langsam: 47 Tokens pro Sekunde bei der Generierung. Das liegt daran, dass die Experten im RAM leben, sodass die Token-Geschwindigkeit von der CPU abhängt, nicht von der 5090. Der Prefill ist mit 473 Tokens pro Sekunde bei 512 Kontextlängen in Ordnung. Es ist die Generierung, die den Offload-Steuersatz zahlt. Das Modell ist nutzbar, aber nicht schnell. Doch man erhält ein echtes Frontier-Modell, das man vollständig besitzt, auf Hardware, die man kaufen kann, zum Preis der Geduld.
mehr auf Arint.info
#AI #GPT #MachineLearning #MoE #OpenAI #RTX5090 #arint_info
https://x.com/witcheer/status/2062103386615398642#m