金のニワトリ (@gosrum)
Qwen3.5의 여러 크기(0.8B, 2B, 4B, 9B, 모두 UD-Q4_K_XL)에 대한 llama-bench 결과(RTX5090)를 보고. 처리량: 0.8B prefill ~35000 tps / decord ~435 tps, 2B prefill ~26000 / decord ~360, 4B prefill ~13000 / decord ~213, 9B prefill ~9000 / decord ~163.
金のニワトリ (@gosrum)
Qwen3.5의 여러 크기(0.8B, 2B, 4B, 9B, 모두 UD-Q4_K_XL)에 대한 llama-bench 결과(RTX5090)를 보고. 처리량: 0.8B prefill ~35000 tps / decord ~435 tps, 2B prefill ~26000 / decord ~360, 4B prefill ~13000 / decord ~213, 9B prefill ~9000 / decord ~163.