RT @DJLougen: TRANSLASION: Open-Source-REAP-Idee, bei der ich Hilfe benötige.

mehr auf Arint.info

#CommunityAtlas #MachineLearning #MoE #OpenSource #Pruning #REAP #arint_info

https://x.com/DJLougen/status/2063001696427786735#m

Arint - SEO+KI (@[email protected])

<p>RT @DJLougen: TRANSLASION: Open-Source-REAP-Idee, bei der ich Hilfe benötige.</p> <p><a href="https://arint.info/@Arint/116706831117459300">mehr</a> auf <a href="https://arint.info/">Arint.info</a></p> <p>#CommunityAtlas #MachineLearning #MoE #OpenSource #Pruning #REAP #arint_info</p> <p><a href="https://x.com/DJLougen/status/2063001696427786735#m">https://x.com/DJLougen/status/2063001696427786735#m</a></p>

Mastodon Glitch Edition
Epirus Leonidas chan (PatimationStudios)
Gemma 4 QAT is here - now I’m waiting for Ollama TurboQuant so the full stack is ready: QAT, MoE, sparse-active models, smarter attention, and MTP speculative decoding. #Gemma4 #Ollama #TurboQuant #QAT #MoE #MTP #LocalAI
Gemma 4 QAT is here - now I’m waiting for Ollama TurboQuant so the full stack is ready: QAT, MoE, sparse-active models, smarter attention, and MTP speculative decoding. #Gemma4 #Ollama #TurboQuant #QAT #MoE #MTP #LocalAI

RT @DJLougen: TRANSLASATION: Open-Source-REAP-Idee, bei der ich Hilfe benötige.

mehr auf Arint.info

#AIResearch #CommunityDriven #MachineLearning #MoE #OpenSource #REAP #arint_info

https://x.com/DJLougen/status/2063001696427786735#m

Arint - SEO+KI (@[email protected])

<p>RT @DJLougen: TRANSLASATION: Open-Source-REAP-Idee, bei der ich Hilfe benötige.</p> <p><a href="https://arint.info/@Arint/116701173996652111">mehr</a> auf <a href="https://arint.info/">Arint.info</a></p> <p>#AIResearch #CommunityDriven #MachineLearning #MoE #OpenSource #REAP #arint_info</p> <p><a href="https://x.com/DJLougen/status/2063001696427786735#m">https://x.com/DJLougen/status/2063001696427786735#m</a></p>

Mastodon Glitch Edition

RT @witcheer: TRANSLASATION: OpenAI's GPT-OSS-120B läuft auf einer einzelnen RTX 5090. Es handelt sich um ein 59 GB großes Modell im nativen MXFP4-Format, das nicht in 32 GB VRAM passt. Die Lösung ist MoE-Offload: Die Attention-Mechanismen bleiben auf der GPU, während die Expert-Gewichte in den Systemspeicher ausgelagert werden (llama.cpp --n-cpu-moe). Auf diese Weise feuern nur 5,1 Mrd. von 117 Mrd. Parametern pro Token, sodass die CPU-Seite kostengünstig bleibt. Mit aktiviertem Reasoning, gemessen an meiner Hardware, Temperatur 0, ~100 Aufgaben pro Test (MMLU 114): MMLU 89,5, GSM8K 97,0, HumanEval 98,0 pass@1, ARC-Challenge 95,0. Das sind gute Ergebnisse auf Frontier-Niveau, auf einer einzigen Consumer-GPU. Allerdings ist es ziemlich langsam: 47 Tokens pro Sekunde bei der Generierung. Das liegt daran, dass die Experten im RAM leben, sodass die Token-Geschwindigkeit von der CPU abhängt, nicht von der 5090. Der Prefill ist mit 473 Tokens pro Sekunde bei 512 Kontextlängen in Ordnung. Es ist die Generierung, die den Offload-Steuersatz zahlt. Das Modell ist nutzbar, aber nicht schnell. Doch man erhält ein echtes Frontier-Modell, das man vollständig besitzt, auf Hardware, die man kaufen kann, zum Preis der Geduld.

mehr auf Arint.info

#AI #GPT #MachineLearning #MoE #OpenAI #RTX5090 #arint_info

https://x.com/witcheer/status/2062103386615398642#m

Arint - SEO+KI (@[email protected])

<p>RT @witcheer: TRANSLASATION: OpenAI's GPT-OSS-120B läuft auf einer einzelnen RTX 5090. Es handelt sich um ein 59 GB großes Modell im nativen MXFP4-Format, das nicht in 32 GB VRAM passt. Die Lösung ist MoE-Offload: Die Attention-Mechanismen bleiben auf der GPU, während die Expert-Gewichte in den Systemspeicher ausgelagert werden (llama.cpp --n-cpu-moe). Auf diese Weise feuern nur 5,1 Mrd. von 117 Mrd. Parametern pro Token, sodass die CPU-Seite kostengünstig bleibt. Mit aktiviertem Reasoning, gemessen an meiner Hardware, Temperatur 0, ~100 Aufgaben pro Test (MMLU 114): MMLU 89,5, GSM8K 97,0, HumanEval 98,0 pass@1, ARC-Challenge 95,0. Das sind gute Ergebnisse auf Frontier-Niveau, auf einer einzigen Consumer-GPU. Allerdings ist es ziemlich langsam: 47 Tokens pro Sekunde bei der Generierung. Das liegt daran, dass die Experten im RAM leben, sodass die Token-Geschwindigkeit von der CPU abhängt, nicht von der 5090. Der Prefill ist mit 473 Tokens pro Sekunde bei 512 Kontextlängen in Ordnung. Es ist die Generierung, die den Offload-Steuersatz zahlt. Das Modell ist nutzbar, aber nicht schnell. Doch man erhält ein echtes Frontier-Modell, das man vollständig besitzt, auf Hardware, die man kaufen kann, zum Preis der Geduld.</p> <p><a href="https://arint.info/@Arint/116689852899521590">mehr</a> auf <a href="https://arint.info/">Arint.info</a></p> <p>#AI #GPT #MachineLearning #MoE #OpenAI #RTX5090 #arint_info</p> <p><a href="https://x.com/witcheer/status/2062103386615398642#m">https://x.com/witcheer/status/2062103386615398642#m</a></p>

Mastodon Glitch Edition

Võrgust detailidega ujumiskomplektid: Stiilsed ja mugavad ujumiskomplektid.

Avasta elegantsete võrgust detailidega ujumiskomplektid, mis sobivad ideaalselt suvemõnudeks. Kontrolli mõõdutabelit enne ostu! https://tootemaailm.ee/vorgust-detailidega-ujumiskomplektid/ #ujumiskomplektid #suvisedriided #moe #stiil #kenad

Säravad suured kõrvarõngad: Säravad suured kõrvarõngad igaks hetkeks.

Need elegantsed kõrvarõngad toovad sära iga riietuse juurde. Telli kohe ja lisa oma kollektsiooni luksust! https://tootemaailm.ee/saravad-suured-korvarongad-2/ #kõrvarõngad #luksus #elegants #moe #aastaaeg

Pikk kaelakee liblikaga: Elegantne pikk kaelakee liblikaga.

Lisage oma stiilile elegantsi selle kauni liblikamotiiviga kaelakeega. Ideaalne igapäevaseks kandmiseks ja eriliseks sündmuseks. https://tootemaailm.ee/pikk-kaelakee-liblikaga/ #kaelakee #liblikakujundus #elegants #moe #aksessorid