Qwen3-vl có khả năng OCR và chú thích hình ảnh rất tốt, nhưng vẫn chưa tạo được tọa độ và khung giới hạn chính xác cho các đối tượng trên màn hình. Tôi chỉ chụp ảnh màn hình và gửi nguyên như vậy, nhưng độ chính xác không cao. Thử thay đổi kích thước nhưng vẫn không được. Ai cũng gặp vấn đề này? 🤔 #Qwen3vl #OCR #ImageCaption #HìnhẢnh #CóVấnĐề
https://www.reddit.com/r/LocalLLaMA/comments/1okg0gm/while_qwen3vl_has_very_good_ocrimage_caption/
