金のニワトリ (@gosrum)
RTX 5090 환경에서 Nemotron-Cascade-2-30B-A3B(Q4_K_M)의 llama-bench 결과를 공유했다. prefill은 약 13000 tps, decord는 약 285 tps로, 최신 GPU에서의 추론 성능을 보여주는 벤치마크 트윗이다.
金のニワトリ (@gosrum)
RTX 5090 환경에서 Nemotron-Cascade-2-30B-A3B(Q4_K_M)의 llama-bench 결과를 공유했다. prefill은 약 13000 tps, decord는 약 285 tps로, 최신 GPU에서의 추론 성능을 보여주는 벤치마크 트윗이다.