merve (@mervenoyann)

해당 트윗은 알리바바 Qwen 계열의 Qwen3VL 모델이 특히 'grounding' 능력(사실 근거 제공 능력)에 강점을 보인다고 지적합니다. 주목할 점은 이 성능이 단지 4B(약 4억 파라미터)급 경량 모델에서도 관찰된다는 것으로, 소형화된 LLM의 실용성 향상을 시사합니다.

https://x.com/mervenoyann/status/2027351337592127737

#alibaba #qwen #qwen3vl #llm

merve (@mervenoyann) on X

people miss out on @Alibaba_Qwen Qwen3VL's grounding skills 👀 and this is only a 4B model ⤵️

X (formerly Twitter)

Gustavo Nicot (@gustavonicot)

Qwen3-VL 모델을 이용한 홈 카메라 대시보드가 30분 동안 조용히 동작하며 유의미한 결과를 냈다는 소식으로, 장기간 실행되는 워크플로우에서 모델 선택이 가져올 변화(phase shift)를 언급합니다. 또한 @karpathy(카파시)의 의견을 높게 평가하는 코멘트가 포함되어 있습니다.

https://x.com/gustavonicot/status/2026744055607001441

#qwen3vl #homeautomation #longrunningworkflows #modelchoice #karpathy

Gustavo Nicot (@gustavonicot) on X

Amazing! A home camera dashboard with Qwen3-VL running quietly for 30 minutes and delivering… that’s a real phase shift. Curious about the models choice for this long-running workflows right now. For many of us @karpathy, your voice is one of the best signals. Appreciate you

X (formerly Twitter)

Latxa VL eredu berriak probatu ditut. Euskarazko dokumentuekin OCR modura erabiltzeko oso interesgarriak!!

https://xezpeleta.github.io/blog/latxa-vl/

#latxa #latxavl #hitz #adimenArtifizialara #adimenArtifizialaEuskaraz #qwen #qwen3 #qwen3vl

Latxa VL eredu berriak

Duela gutxi HiTZ zentroak Latxa VL ereduak argitaratu zituen. Eredu hauek Qwen3-VL ereduetan oinarrituak daude eta ikusmenerako gaitasuna dute. Momentuz, bi tamaina ditugu eskuragarri, biak oso txikiak: 2B eta 4B parametro dituzten ereduak. Ondorenera aurkeztutako probak 4B ereduarekin eginak izan dira. Euskaraz dakiten ereduak Orokorrean, horrelako tamaina txikiko ereduek ingelesez txukun erantzuteko gaitasuna izan ohi dute soilik. Latxa VL eredu hauek, ordea, euskaraz egiteko entrenatuak izan dira. Euskaraz ulertzeko gai izan harren, sarri akats batzuk egiten ditu erantzunetan.

Xabi Ezpeleta

新清士@(生成AI)インディゲーム開発者 (@kiyoshi_shin)

Genine3와 비슷한 기능을 Wan2.2와 Qwen3-VL로 구현한 데모를 공개함. 데모는 오픈소스 기반이며 1초 미만의 레이턴시로 동작한다고 보고되어 실시간성·오픈소스 측면에서 주목할 만함.

https://x.com/kiyoshi_shin/status/2017539535908048952

#opensource #qwen3vl #wan2.2 #genine3 #lowlatency

新清士@(生成AI)インディゲーム開発者 (@kiyoshi_shin) on X

Genine3みたいなことをWan2.2とQwen3-VLで実現したデモ。1秒以下のレイテンシで、オープンソースとのこと

X (formerly Twitter)

🔧 Đang cố fine‑tune Qwen-3-VL‑8B‑Instruct để phát hiện keypoint đối tượng, nhưng loss luôn thấp và không giảm như Qwen‑2.5‑VL trước đây. Đã thử Unsloth, tài liệu chính thức, thay đổi prompt & định dạng dữ liệu mà không hiệu quả. Cần mọi kinh nghiệm: định dạng dữ liệu, prompt, code, lưu ý đặc thù cho Qwen‑3‑VL. 🙏

#AI #MachineLearning #ComputerVision #Qwen3VL #FineTuning #HọcMáy #ThịGiácMáy #KhoaHọcDữLiệu

https://www.reddit.com/r/LocalLLaMA/comments/1qbsdm4/finetuning_qwen3vl_for_object_coordi

"browser-use" đã tinh chỉnh và ra mắt phiên bản xem trước của mô hình AI Qwen3-VL-30B-A3B-Instruct. Đây là một bước tiến mới trong phát triển các mô hình ngôn ngữ lớn và đa phương thức.

#AI #LLM #Qwen3VL #browseruse #ArtificialIntelligence #LargeLanguageModels #TríTuệNhânTạo #MôHìnhNgônNgữLớn

https://www.reddit.com/r/LocalLLaMA/comments/1pojfmt/browseruse_fine_tuned_qwen3vl30ba3binstruct_as/

2시간 영상 속 1프레임 찾기 99.5% 성공: Alibaba Qwen3-VL의 놀라운 시각 능력

Alibaba Qwen3-VL이 2시간 영상에서 특정 프레임을 99.5% 정확도로 찾아내는 놀라운 능력을 공개했습니다. 시각적 수학 문제에서 GPT-5를 능가하는 오픈소스 멀티모달 AI의 가능성을 소개합니다.

https://aisparkup.com/posts/7182

Qwen3-VL can scan two-hour videos and pinpoint nearly every detail

A few months after launching Qwen3-VL, Alibaba has released a detailed technical report on the open multimodal model. The data shows the system excels at image-based math tasks and can analyze hours of video footage.

THE DECODER
#Alibaba’s #Qwen3VL, a multimodal AI model, excels in #image based tasks and analysing long #videos. It outperforms competitors like Gemini 2.5 Pro and GPT-5 in visual maths and document comprehension, though it lags in general reasoning. The model’s #opensource release under the Apache 2.0 licence is expected to drive further development. https://the-decoder.com/qwen3-vl-can-scan-two-hour-videos-and-pinpoint-nearly-every-detail/?AIagents.at #AIagent #AI #ML #NLP #LLM #GenAI
Qwen3-VL can scan two-hour videos and pinpoint nearly every detail

A few months after launching Qwen3-VL, Alibaba has released a detailed technical report on the open multimodal model. The data shows the system excels at image-based math tasks and can analyze hours of video footage.

THE DECODER

Alibaba’s new open‑source model Qwen3‑VL can scan two‑hour videos, achieving 96.5 % on DocVQA and 875 on OCRBench. The multimodal vision‑language system rivals the rumored GPT‑5 in document understanding. Dive into the results and see why the community is buzzing. #Qwen3VL #Alibaba #DocVQA #OCRBench

🔗 https://aidailypost.com/news/qwen3vl-scans-twohour-videos-hits-965-docvqa-875-ocrbench