RT @leftcurvedev_: Jeder mit 8GB oder 12GB VRAM-Setup muss verstehen, dass "-ncmoe" das entscheidende Flag ist, um die Leistung auf llama.cpp zu steigern. Hier sind meine Ergebnisse für Qwen3.6 35B A3B mit 64k q80-Kontext auf einer 8GB RTX 3070Ti: ⚪️ kein Flag → 8,7 tok/s RAM: 13,6GB & VRAM: 7,8GB 🔴 -ncmoe 35 → 27,5 tok/s RAM: 12,1GB & VRAM: 4,3GB 🟢 -ncmoe 30 → 32,5 tok/s RAM: 12GB & VRAM: 5,6GB 🔵 -ncmoe 25 → 40,9 tok/s RAM: 12GB & VRAM: 6,9GB Bitte beachtet, dass die angezeigten RAM- und VRAM-Werte die Gesamtnutzung eines Windows-PCs mit laufendem Modell darstellen. Das Setup meines Freundes: 8GB VRAM und 16GB RAM. Ihr könnt die Leistung steigern, indem ihr zu Linux wechselt – das ist etwas, das ihr im Hinterkopf behalten solltet. Im Grunde hält dieses Flag die MoE-Experten in den ersten X Schichten auf eurer CPU + RAM, anstatt sofort euren gesamten VRAM zu verbrauchen. Dies ist eine intelligente hybride Auslagerungsmethode, die es euch ermöglicht, größere Modelle ohne OOM (Out of Memory) auszuführen, während der Rest auf eurer GPU für Geschwindigkeit bleibt. Wie wir an den Daten sehen können, gibt es einen optimalen Punkt. Wenn wir den Wert von 35 auf 25 senken, steigt die Geschwindigkeit um +50%, weil sich mehr Schichten auf eurer GPU befinden (schaut euch die VRAM-Nutzung an). Der Schlüssel liegt darin, mit der Zahl zu experimentieren und so viel wie möglich in euren VRAM zu passen. Das Ziel ist es, 1GB/800MB Puffer zu haben, um Stress zu vermeiden. ↓ Server-Flags unten Video links Kurve dev (@leftcurvedev) Heute teste ich etwas mit der RTX 3070 Ti. Mal sehen, was wir in 8GB VRAM unterbri…

mehr auf Arint.info

#AI #Hardware #llama #Optimierung #Qwen3 #RTX3070Ti #arint_info

https://x.com/leftcurvedev_/status/2052812387955151062#m

Arint - SEO+KI (@[email protected])

<p>RT @leftcurvedev_: Jeder mit 8GB oder 12GB VRAM-Setup muss verstehen, dass "-ncmoe" das entscheidende Flag ist, um die Leistung auf llama.cpp zu steigern. Hier sind meine Ergebnisse für Qwen3.6 35B A3B mit 64k q80-Kontext auf einer 8GB RTX 3070Ti: ⚪️ kein Flag → 8,7 tok/s RAM: 13,6GB & VRAM: 7,8GB 🔴 -ncmoe 35 → 27,5 tok/s RAM: 12,1GB & VRAM: 4,3GB 🟢 -ncmoe 30 → 32,5 tok/s RAM: 12GB & VRAM: 5,6GB 🔵 -ncmoe 25 → 40,9 tok/s RAM: 12GB & VRAM: 6,9GB Bitte beachtet, dass die angezeigten RAM- und VRAM-Werte die Gesamtnutzung eines Windows-PCs mit laufendem Modell darstellen. Das Setup meines Freundes: 8GB VRAM und 16GB RAM. Ihr könnt die Leistung steigern, indem ihr zu Linux wechselt – das ist etwas, das ihr im Hinterkopf behalten solltet. Im Grunde hält dieses Flag die MoE-Experten in den ersten X Schichten auf eurer CPU + RAM, anstatt sofort euren gesamten VRAM zu verbrauchen. Dies ist eine intelligente hybride Auslagerungsmethode, die es euch ermöglicht, größere Modelle ohne OOM (Out of Memory) auszuführen, während der Rest auf eurer GPU für Geschwindigkeit bleibt. Wie wir an den Daten sehen können, gibt es einen optimalen Punkt. Wenn wir den Wert von 35 auf 25 senken, steigt die Geschwindigkeit um +50%, weil sich mehr Schichten auf eurer GPU befinden (schaut euch die VRAM-Nutzung an). Der Schlüssel liegt darin, mit der Zahl zu experimentieren und so viel wie möglich in euren VRAM zu passen. Das Ziel ist es, 1GB/800MB Puffer zu haben, um Stress zu vermeiden. ↓ Server-Flags unten Video links Kurve dev (@leftcurvedev) Heute teste ich etwas mit der RTX 3070 Ti. Mal sehen, was wir in 8GB VRAM unterbri…</p> <p><a href="https://arint.info/@Arint/116542633263780191">mehr</a> auf <a href="https://arint.info/">Arint.info</a></p> <p>#AI #Hardware #llama #Optimierung #Qwen3 #RTX3070Ti #arint_info</p> <p><a href="https://x.com/leftcurvedev_/status/2052812387955151062#m">https://x.com/leftcurvedev_/status/2052812387955151062#m</a></p>

Mastodon Glitch Edition
【ゆっくり解説】9台のグラボの中から画像生成AIに最適なグラボを選んだぜ!【Stable Diffusion】 - エミリーと学ぶ生成AIの世界

「【ゆっくり解説】9台のグラボの中から画像生成AIに最適なグラボを選んだぜ!【Stable Diff…

エミリーと学ぶ生成AIの世界
Razer Blade 14" (2022) im Test: Wirklich der beste Gaming-Laptop bis 14 Zoll?

Wir haben den Razer Blade 14 (2022) im Test und sind absolut begeistert. Trotz kleiner Tadel eine absolute Maschine in seinem Element!

PocketPC.ch

Der Vector-Block von EKWaterBlocks für unsere EVGA RTX3070Ti FTW3 sieht doch einfach nur geil aus. 😍🤤

#PC #PCGaming #PCHardware #Gaming #Hardware #EKWB #Waterblock #Watercooling #Nvidia #EVGA #rtx3070Ti #FTW3 #TeamGroup #tforce #ddr4 #ifixit

Was für ein Upgrade!
Von einer MSI GTX 970 zu einer EVGA RTX 3070 Ti. 🎉😁
.
#pc #pcbuild #pcgaming #Nvidia #evga #rtx3070ti #rgb
Razer's New Blade 15 is the World's First with a 240Hz OLED Display

Razer has announced a new version of its Blade 15 laptop that features an OLED QHD 240Hz display it says is for both gamers and creatives.

PetaPixel
Preise sinken - Grafikkarten bald wieder bezahlbar?

Nachdem die Preise einiger Grafikkarten bei teilweise dem dreifachen der UVP gelegen hatten, scheinen sich die Preise etwas zu bessern.

Tarnkappe.info

ツクモパソコン本店、ツクモeX の販売状況

☆GEFORCE RTX3070Tiの販売に関して☆
TSUKUMO eX.では、
明日6/11 (金)の午前10時より販売いたします。
先着にて午前9時30分より購入整理券を配布いたします。

詳しいご案内や販売予定商品は画像をご確認ください。
※混雑状況により配布が早まる場合がございます。
#RTX3070Ti https://t.co/TjsW0bXCNm

https://twitter.com/Tsukumo_eX/status/1402974075819941901

Tsukumo_eX.(ツクモeX.) on Twitter

“☆GEFORCE RTX3070Tiの販売に関して☆ TSUKUMO eX.では、 明日6/11 (金)の午前10時より販売いたします。 先着にて午前9時30分より購入整理券を配布いたします。 詳しいご案内や販売予定商品は画像をご確認ください。 ※混雑状況により配布が早まる場合がございます。 #RTX3070Ti”