Người dùng đã thử nghiệm Spark với mô hình Nemotron3 Nano 30B, đạt tốc độ xử lý batch ấn tượng ~1300 token/giây với 200 yêu cầu đồng thời. Hiệu suất này rất hứa hẹn so với thế hệ trước và B200. Bạn nghĩ sao về việc so sánh với cấu hình 4x 3090?

#AI #HieuNang #XuLyBatch #DGX #Spark #Nemotron3 #GPU #Performance #BatchProcessing

https://www.reddit.com/r/LocalLLaMA/comments/1ptp8lq/dgx_spark_and_batch_processing/

RTX PRO 6000 đấu với H100 và H200 để xem hiệu năng LLM inference thế nào. Pro 6000 ngon cho single-GPU, nhưng với model lớn cần nhiều GPU thì H100/H200 có NVLink vẫn hơn hẳn. Chi phí/hiệu năng cũng khác biệt đáng kể.

#LLM #AI #GPU #benchmark #VietAI #trituenhantao #hieunang

https://www.reddit.com/r/LocalLLaMA/comments/1p93r0w/benchmarking_llm_inference_on_rtx_pro_6000_vs/