Mới đây, ta hợp tác với Tome Qwen để model Qwen3-VL 4B & 8B Support GGUF & MLX qua NexusSDK (một framework duy nhất tại này). Với GPU NVIDIA 5090 mới, tốc độ run compensating là 187-267 tok/s để 4B & 8B. Áp dụng_local qua ứng dụng Hyperlink giúp người dùng thử.

#AI #Qwen3VL #NexaSDK #NVIDIA5090 #GPT #TốcĐộCựcCao
#TâyNướcGiang #HọcMáy #TốiQuyCôngAI

https://www.reddit.com/r/LocalLLaMA/comments/1o98m76/nvidia_sent_me_a_5090_so_i_can_demo_qwen3vl_gguf/