https://www.am730.com.hk/國際/1034516/黃仁勳訪韓見傳奇電競選手-親簽rtx-5090顯示卡贈faker
RT @witcheer: TRANSLASATION: OpenAI's GPT-OSS-120B läuft auf einer einzelnen RTX 5090. Es handelt sich um ein 59 GB großes Modell im nativen MXFP4-Format, das nicht in 32 GB VRAM passt. Die Lösung ist MoE-Offload: Die Attention-Mechanismen bleiben auf der GPU, während die Expert-Gewichte in den Systemspeicher ausgelagert werden (llama.cpp --n-cpu-moe). Auf diese Weise feuern nur 5,1 Mrd. von 117 Mrd. Parametern pro Token, sodass die CPU-Seite kostengünstig bleibt. Mit aktiviertem Reasoning, gemessen an meiner Hardware, Temperatur 0, ~100 Aufgaben pro Test (MMLU 114): MMLU 89,5, GSM8K 97,0, HumanEval 98,0 pass@1, ARC-Challenge 95,0. Das sind gute Ergebnisse auf Frontier-Niveau, auf einer einzigen Consumer-GPU. Allerdings ist es ziemlich langsam: 47 Tokens pro Sekunde bei der Generierung. Das liegt daran, dass die Experten im RAM leben, sodass die Token-Geschwindigkeit von der CPU abhängt, nicht von der 5090. Der Prefill ist mit 473 Tokens pro Sekunde bei 512 Kontextlängen in Ordnung. Es ist die Generierung, die den Offload-Steuersatz zahlt. Das Modell ist nutzbar, aber nicht schnell. Doch man erhält ein echtes Frontier-Modell, das man vollständig besitzt, auf Hardware, die man kaufen kann, zum Preis der Geduld.
mehr auf Arint.info
<p>RT @witcheer: TRANSLASATION: OpenAI's GPT-OSS-120B läuft auf einer einzelnen RTX 5090. Es handelt sich um ein 59 GB großes Modell im nativen MXFP4-Format, das nicht in 32 GB VRAM passt. Die Lösung ist MoE-Offload: Die Attention-Mechanismen bleiben auf der GPU, während die Expert-Gewichte in den Systemspeicher ausgelagert werden (llama.cpp --n-cpu-moe). Auf diese Weise feuern nur 5,1 Mrd. von 117 Mrd. Parametern pro Token, sodass die CPU-Seite kostengünstig bleibt. Mit aktiviertem Reasoning, gemessen an meiner Hardware, Temperatur 0, ~100 Aufgaben pro Test (MMLU 114): MMLU 89,5, GSM8K 97,0, HumanEval 98,0 pass@1, ARC-Challenge 95,0. Das sind gute Ergebnisse auf Frontier-Niveau, auf einer einzigen Consumer-GPU. Allerdings ist es ziemlich langsam: 47 Tokens pro Sekunde bei der Generierung. Das liegt daran, dass die Experten im RAM leben, sodass die Token-Geschwindigkeit von der CPU abhängt, nicht von der 5090. Der Prefill ist mit 473 Tokens pro Sekunde bei 512 Kontextlängen in Ordnung. Es ist die Generierung, die den Offload-Steuersatz zahlt. Das Modell ist nutzbar, aber nicht schnell. Doch man erhält ein echtes Frontier-Modell, das man vollständig besitzt, auf Hardware, die man kaufen kann, zum Preis der Geduld.</p> <p><a href="https://arint.info/@Arint/116689852899521590">mehr</a> auf <a href="https://arint.info/">Arint.info</a></p> <p>#AI #GPT #MachineLearning #MoE #OpenAI #RTX5090 #arint_info</p> <p><a href="https://x.com/witcheer/status/2062103386615398642#m">https://x.com/witcheer/status/2062103386615398642#m</a></p>
BÁO CÁO PHÂN TÍCH CHUYÊN SÂU SỨC MẠNH KỸ THUẬT CỦA ASUS ROG NUC 16 EDITION 20
BÁO CÁO PHÂN TÍCH CHUYÊN SÂU SỨC MẠNH KỸ THUẬT CỦA ASUS ROG NUC 16 EDITION 20 #ASUS #ROGNUC16Edition20 #RTX5090 #MiniPC #CongNgheGaming #PhanTichPhanCung Bạn có dám vung hơn 100 triệu đồng cho một cỗ máy tính chỉ to bằng hộp bánh quy nhưng dư sức nghiền nát hiệu năng của những dàn PC khổng lồ nặng hàng chục ký? MỤC LỤC…
BÁO CÁO PHÂN TÍCH CHUYÊN SÂU SỨC MẠNH KỸ THUẬT CỦA ASUS ROG NUC 16 EDITION 20
BÁO CÁO PHÂN TÍCH CHUYÊN SÂU SỨC MẠNH KỸ THUẬT CỦA ASUS ROG NUC 16 EDITION 20 #ASUS #ROGNUC16Edition20 #RTX5090 #MiniPC #CongNgheGaming #PhanTichPhanCung Bạn có dám vung hơn 100 triệu đồng cho một cỗ máy tính chỉ to bằng hộp bánh quy nhưng dư sức nghiền nát hiệu năng của những dàn PC khổng lồ nặng hàng chục ký? MỤC LỤC…
⚙️ Asus ROG NUC 16 Packs RTX 5090 in Slim 5.6cm Gaming PC
Asus unveils the ROG NUC 16 Edition 20, a slim 5.6cm gaming PC packing an Nvidia GeForce RTX 5090 mobile GPU and Intel's Core Ultra 9 290HX Plus. It marks ROG's 20th anniversary, but won't launch in Germany.
https://www.byte-pulse.net/article/asus-rog-nuc-16-packs-rtx-5090-in-slim-5-6cm-gaming-pc