Các mô hình AI mở (VL) đang gặp khó phân biệt giữa cấu trúc cơ bản và phụ kiện trang phục (ví dụ: "vấn đề sừng"). Gemini 3 Flash vượt trội nhờ nhận diện chính xác từng lớp. Tôi dự định tinh chỉnh Qwen 32B dựa trên chú thích của mô hình này để đạt caption chất lượng cao. Liệu Qwen có tiếp nhận được khả năng suy luận thị giác này? #AI #MáyHọc #SyntheticData #Gemini #Qwen #AIModeling #DữLiệu #HàngĐầu
