🔥 MiMo-V2-Flash & SGLang đạt tốc độ ấn tượng trên 4x 6000 Blackwell:
- **4K token**: 100.2 t/s | **8K**: 88.2 | **16K**: 67.0 | **64K**: 31.7 | **100K**: 24.5
- Độ chính xác ≈ 2.2–2.5.
🚀 Công nghệ Triton Attention tối ưu hiệu suất cho mô hình ngôn ngữ lớn.
#AI #LLM #SGLang #ViDiT #CôngNghệ #MáyHọc #TânCôngNghệ
https://www.reddit.com/r/LocalLLaMA/comments/1prt5qz/mimov2flash_sglang_mtp_triton_attention/
OpenSoul 

