xman (@xuconz)
단일 요청·단일 사용자 환경에서 배칭 없이 Qwen3.5-35B-A3B 모델을 vLLM으로 RTX PRO 6000 96GB 한 장에 구동한 벤치마크입니다. 한 프롬프트 512 토큰 생성에 3.03초(약 169 tok/s) 성능을 기록했으며, 동시 부하에서 연속 배칭을 적용하면 총 처리량은 더 증가할 것이라는 설명입니다.

xman (@xuconz) on X
@ivanfioravanti @danieltvela @alexocheema @Prince_Canuma Single request, single user — no batching at all. One prompt, 512 completion tokens, 3.03s wall clock = ~169 tok/s raw generation speed. Running Qwen3.5-35B-A3B on a single RTX PRO 6000 96GB via vLLM. With continuous batching under concurrent load, aggregate throughput would go

