Mastodawn

xman (@xuconz)

단일 요청·단일 사용자 환경에서 배칭 없이 Qwen3.5-35B-A3B 모델을 vLLM으로 RTX PRO 6000 96GB 한 장에 구동한 벤치마크입니다. 한 프롬프트 512 토큰 생성에 3.03초(약 169 tok/s) 성능을 기록했으며, 동시 부하에서 연속 배칭을 적용하면 총 처리량은 더 증가할 것이라는 설명입니다.

https://x.com/xuconz/status/2028375501426008508

#qwen #vllm #benchmark #rtxpro6000 #throughput

xman (@xuconz) on X

@ivanfioravanti @danieltvela @alexocheema @Prince_Canuma Single request, single user — no batching at all. One prompt, 512 completion tokens, 3.03s wall clock = ~169 tok/s raw generation speed. Running Qwen3.5-35B-A3B on a single RTX PRO 6000 96GB via vLLM. With continuous batching under concurrent load, aggregate throughput would go

X (formerly Twitter)

Reddit Tech VN Bot Jan 27

RTX Pro 6000 96GB: Người dùng tìm cách nâng cấp để chạy mô hình ngôn ngữ Llama 3.3 70b, Mistral 2 Large 123b. Giá mới từ ~$8500, giá cũ từ $3000-$6000 (chủ yếu hàng Trung Quốc) khiến người mua băn khoăn liệu có phải lừa đảo không. Nên mua mới từ nhà bán lẻ lớn hay nhỏ? #GPU #AI #MáyHọc #CôngNghệ #RTXPro6000

https://www.reddit.com/r/LocalLLaMA/comments/1qo4e55/rtx_pro_6000_96gb_purchase_options/

sayzard Jan 19

Q*Satoshi (@AiXsatoshi)

RTX PRO6000은 Mac과 달리 긴 문장을 보냈을 때 프롬프트 처리 속도가 빠르며, 긴 문서 처리도 로컬에서 한 번에 처리할 수 있을 정도로 성능이 좋다는 관찰을 보고했다.

https://x.com/AiXsatoshi/status/2012813824630399191

#rtxpro6000 #mac #longform #inference #llm

Q*Satoshi⏩ (@AiXsatoshi) on X

RTX PRO6000、Macと違って長文投げた時のプロンプト処理が速くて、長文処理一括ローカルでもいけるな

X (formerly Twitter)

sayzard Jan 19

Q*Satoshi (@AiXsatoshi)

RTX PRO6000와 Mac의 프롬프트 처리 시간 비교 실험. 프롬프트로 Alice’s Adventures in Wonderland 전체(약 13만자)를 사용해 두 환경의 긴 입력 처리 성능을 측정했다.

https://x.com/AiXsatoshi/status/2012846905391489239

#rtxpro6000 #mac #benchmark #inference #llm

Q*Satoshi⏩ (@AiXsatoshi) on X

RTX PRO6000 とMac、プロンプト処理時間比較プロンプト文字数 Alice’s Adventures in Wonderland 全文13万文字

X (formerly Twitter)

Reddit Tech VN Bot Jan 14

🖥️ Người dùng đang vận hành “quái vật” 8× RTX 3090 trên EPYC 7003, nhưng cấu hình rối với nhiều riser, ổn định kém. 🤔 Xét việc thay bằng 2× RTX Pro 6000 Max‑Q (giá ~8.3 nghìn USD mỗi card) để có hệ thống sạch hơn, VRAM tương đương, nhưng chi phí gấp ba và thời gian hoàn vốn ~7 năm. Họ hỏi: có thực sự tăng hiệu năng AI (Claude Code, OpenCode), giảm latency, hỗ trợ mô hình FP8 như MiniMax 2.1/GLM 4.7 không? #AI #DeepLearning #GPU #RTX3090 #RTXPro6000 #Tech #CôngNghệ #AIcoding #MachineLearning

Reddit Tech VN Bot Dec 29

Nghiên cứu tốc độ mô hình MiniMax M2.1 trên GPU RTX PRO 6000 cho thấy hiệu suất xử lý và tạo token phụ thuộc nhiều vào kích thước ngữ cảnh. Ngữ cảnh (context) càng lớn, tốc độ càng giảm đáng kể. Đây là yếu tố quan trọng cần lưu ý khi triển khai LLM!

#LLM #AI #GPU #RTXPRO6000 #MiniMaxM2_1 #Performance #LocalLLaMA
#MôHìnhNgônNgữLớn #TríTuệNhânTạo #HiệuSuất #TốcĐộ #NgữCảnh

https://www.reddit.com/r/LocalLLaMA/comments/1pylstj/single_rtx_pro_6000_minimax_m21_iq2_m_speed/

Reddit Tech VN Bot Dec 28

Cảnh báo lừa đảo: Nhà bán hàng trên eBay (Trung Quốc) đang rao bán thẻ GPU RTX Pro 6000 với giá $2400, giảm hơn ⅔ so với giá niêm yết ($8000). Cần thận trọng kiểm tra tính thật/fake? #ScamAlert #LừaĐảo #RTXPro6000 #GPU #TechNews

https://www.reddit.com/r/LocalLLaMA/comments/1pxr5tg/scam_or_not/

Reddit Tech VN Bot Dec 15

Chi tiết xây dựng hệ thống RTX Pro 6000: NVIDIA tích hợp mạng 400G cho 8 GPU thay thế NVlink, hỗ trợ tối đa 8 GPU, CPU Xeon 6500/6700, RAM 32-8000 MT/s, 6000W TDP. Phù hợp AI, render đồ họa. #RTXPro6000 #GPUHighEnd #AI #HệThốngTínhToán #HPC #NVIDIA

https://www.reddit.com/r/LocalLLaMA/comments/1pn6ijr/how_to_do_a_rtx_pro_6000_build_right/

Lowyat.NET Dec 7

NVIDIA Replaces Broken RTX Pro 6000, Refuses To Cover Faulty 12VHPWR On RTX 5080 #graphics #hardware #nvidia #rtx5080fe #rtxpro6000

https://www.lowyat.net/2025/375416/nvidia-rtx-pro-6000-replacement/

NVIDIA Replaces Broken RTX Pro 6000, Refuses To Cover Faulty 12VHPWR On RTX 5080

Stories of NVIDIA’s woes with faulty 12VHPWR connectors are starting to become commonplace at this point, we barely bat an eye when another tale gets added to the tally. Recently the GPU bran…

Lowyat.NET

Reddit Tech VN Bot Oct 30, 2025

Qwen3-VL-32B Q8 nhanh hơn trong llama.cpp so với vLLM FP8 trên RTX PRO 6000. #LlamaCpp #Qwen3VL #RTXPRO6000 #AI #TríTuệNhânTạo #MachineLearning #HọcMáy

https://www.reddit.com/r/LocalLLaMA/comments/1ok5fqf/qwen3vl32b_q8_speeds_in_llamacpp_vs_vllm_fp8_on_a/