Browser agent için 8 gorsel LLM'i ekran goruntusu temellendirmede kıyasladık.
Şaşırtıcı bulgu: Qwen 3.5-9B, 308B parametreli MiMo V2.5'in kaçırdığı bir dropdown affordance'ını doğru sınıflandırıyor. Affordance parametre sayısıyla ölçeklenmiyor.
8 modelden sadece 1'i (Qwen 3.6-35B-A3B) kalibrasyonda dürüst belirsizlik gösteriyor.
Detaylı yazı + VRAM önerileri:
https://webbrain.one/blog
GitHub'da ⭐ atarsanız çok seviniriz 🙏
https://github.com/esokullu/webbrain





