Mới đây, ta hợp tác với Tome Qwen để model Qwen3-VL 4B & 8B Support GGUF & MLX qua NexusSDK (một framework duy nhất tại này). Với GPU NVIDIA 5090 mới, tốc độ run compensating là 187-267 tok/s để 4B & 8B. Áp dụng_local qua ứng dụng Hyperlink giúp người dùng thử.
#AI #Qwen3VL #NexaSDK #NVIDIA5090 #GPT #TốcĐộCựcCao
#TâyNướcGiang #HọcMáy #TốiQuyCôngAI