Mastodawn

Sudo su (@sudoingX)

같은 GPU(5060 Ti 16GB)에서 모델과 양자화 설정을 바꿔 토큰 처리 속도가 12 tok/s에서 54 tok/s로 향상되었다고 보고합니다. 구성은 Qwen 3.5 9B Q4_K_XL, 컨텍스트 길이 262K, ‘thinking mode’ 활성화, 전체 모델이 GPU에 올라간 상태이며 사용된 플래그(-c 262144 -np 1 -fa on --cache-type-k q4_0 --cache-type-v q4_0)도 공개되었습니다. 하드웨어에 맞는 모델 선택과 양자화의 중요성을 강조합니다.

https://x.com/sudoingX/status/2031037438551019966

#qwen #quantization #gpu #llm #performance

Sudo su (@sudoingX) on X

12 tok/s to 54 tok/s. same card. right model for the hardware. 5060 Ti 16GB + Qwen 3.5 9B Q4_K_XL: 54 tok/s at 262K context, thinking mode on. full model on GPU flags: -c 262144 -np 1 -fa on --cache-type-k q4_0 --cache-type-v q4_0 it's not always about squeezing the biggest

X (formerly Twitter)