Justine Moore (@venturetwins)

실제 세계의 특정 장소를 매우 잘 인식하는 모델들의 능력을 보여주는 예시 트윗이다. NeurIPS 2025 포스터 홀, 스탠퍼드 캠퍼스를 자전거로 달리는 시점 등 간단한 프롬프트만으로도 장면을 생성하거나 이해하는 성능을 시연했다. 공간 이해와 현실감 있는 비전 모델의 발전을 시사한다.

https://x.com/venturetwins/status/2040276591000117690

#visionlanguage #aimodels #spatialreasoning #neuralnetworks #multimodal

Justine Moore (@venturetwins) on X

These models have a remarkable ability to know what specific locations in the real world look like. These are a couple examples, prompts were also simple: "Poster hall at NeurIPS 2025" "POV from a biker riding around the Stanford campus" Zoom in on the poster text 😲

X (formerly Twitter)

limegreenpeper753 (@limegreenpeper1)

Ricoh의 Qwen-3-VL-Ricoh-8B-20260227 모델 공개에 감사하며, MLX로 변환한 뒤 mlx-community에 저장했다고 언급합니다. 비전-언어 모델의 커뮤니티 배포와 Apple MLX 생태계 활용 사례로 볼 수 있습니다.

https://x.com/limegreenpeper1/status/2038536426548314452

#qwen #visionlanguage #mlx #opensource #llm

limegreenpeper753 (@limegreenpeper1) on X

ricoh-ai/Qwen-3-VL-Ricoh-8B-20260227 公開に感謝 MLX変換後 mlx-communityに保存しています https://t.co/nSufWbzWOZ

X (formerly Twitter)

Rohan Paul (@rohanpaul_ai)

의료 비전-언어 모델에서 강화학습(RL) 후학습은 완전히 새로운 능력을 학습시키기보다 기존 능력을 더 정교하게 다듬고, 출력 분포를 최적화해 효율성을 높이는 역할이 크다는 연구 결과를 제시한다.

https://x.com/rohanpaul_ai/status/2036653802204561594

#reinforcementlearning #medai #visionlanguage #machinelearning #research

Rohan Paul (@rohanpaul_ai) on X

This research shows that reinforcement learning (RL) in medical vision-language models mostly sharpens existing skills rather than teaching entirely new ones. Reinforcement learning post-training primarily refines output distributions to improve efficiency, while supervised

X (formerly Twitter)

Microsoft Research (@MSFTResearch)

Phi-4-reasoning-vision-15B는 컴팩트하고 빠른 멀티모달 추론 모델로, 기존 비전-언어 모델이 갖는 느림·비용·배포 난제를 완화하도록 설계되었습니다. 다양한 방법의 장점을 결합해 효율적 배포와 향상된 추론 속도를 목표로 하는 최신 멀티모달 연구·제품입니다.

https://x.com/MSFTResearch/status/2029260461707870469

#phi4 #multimodal #visionlanguage #reasoning

Microsoft Research (@MSFTResearch) on X

Vision-language models improve multimodal systems, but can make them slower, costlier, and harder to deploy. Learn how Phi-4-reasoning-vision-15B, a compact and fast multimodal reasoning model, blends strengths of different methods while reducing their limits:

X (formerly Twitter)

The Humanoid Hub (@TheHumanoidHub)

Physical Intelligence의 π0.6 모델이 실사용 사례에 적용되었다. Weave는 자율 빨래 개기(autonomous laundry folding)에, Ultra는 전자상거래 포장에 활용되며, 해당 모델들은 시각·언어·행동 통합을 목표로 하는 Vision-Language-Action(VLA) 프레임워크 기반으로 설계되었다.

https://x.com/TheHumanoidHub/status/2026455516034306150

#visionlanguage #robotics #automation #vla

The Humanoid Hub (@TheHumanoidHub) on X

Physical Intelligence’s π0.6 models in real-world use cases Weave (left): Autonomous laundry folding Ultra (right): E-commerce packaging The models are built on a Vision-Language-Action (VLA) framework.

X (formerly Twitter)

merve (@mervenoyann)

OpenEnv를 비전-언어 모델(VLM)으로 확장하는 실험 기록. 이미지를 그리드로 렌더링해 base64 관측으로 전달하는 스네이크(snake) 환경을 만들어 VLM이 이미지 관측을 처리하도록 했고, 소규모(3 에피소드) 리플레이를 시연했다는 개발 노트.

https://x.com/mervenoyann/status/2020826014729826309

#openenv #visionlanguage #rl #simulation

merve (@mervenoyann) on X

I played with OpenEnv today to see how it can be extended to vision language models that see images as grids for starter I built a snake environment that renders as image and the image is directly sent as base64 observation here's a small three episode replay of snake, it was a

X (formerly Twitter)

New benchmark reveals that top multimodal models still stumble below 50% accuracy on basic visual entity tasks. The gap highlights limits in current vision‑language training and raises questions about real‑world reliability. Dive into the findings and what they mean for future AI research. #MultimodalLearning #VisionLanguage #EntityRecognition #AIBenchmarking

🔗 https://aidailypost.com/news/top-multimodal-models-fail-exceed-50-accuracy-basic-visual-entity

LMSYS Org (@lmsysorg)

DeepSeek-OCR 2가 Visual Causal Flow를 도입하고 SGLang으로 실행 가능해졌습니다. DeepEncoder V2를 활용해 기존의 좌상→우하 고정 스캔 대신 이미지 내용 기반으로 시각 토큰 순서를 재정렬하고 단계별(스텝별) 비주얼 처리를 수행하여 OCR 및 비전-언어 처리의 유연성과 정확도 향상이 기대됩니다.

https://x.com/lmsysorg/status/2017305889490014281

#deepseek #ocr #visionlanguage #sglang

LMSYS Org (@lmsysorg) on X

🚀 DeepSeek-OCR 2 by @deepseek_ai introduces a new Visual Causal Flow, and you can now run it with SGLang 🔥 Highlights 👀 Uses DeepEncoder V2 to reorder visual tokens based on image content, instead of a fixed top-left → bottom-right scan 🧠Performs step-by-step visual

X (formerly Twitter)

Kimon Fountoulakis (@kfountou)

SOTA LVLM 모델들의 오픈월드 물체 개수 세기를 평가한 방대한 연구(약 40페이지 분량의 실험)가 TMLR에 수락되었다는 내용으로, 대규모 실험을 통해 LVLM의 물체 계수 성능을 체계적으로 검증했다는 소식입니다.

https://x.com/kfountou/status/2017294637661102366

#lvml #visionlanguage #objectcounting #tmlr #research

Kimon Fountoulakis (@kfountou) on X

The amount of work that has gone into evaluating SOTA LVLM models for open-world object counting is impressive. Basically, 40 pages of experiments. Accepted at TMLR.

X (formerly Twitter)

Fernando Pérez-García (@fepegar_)

Microsoft Research의 COLIPRI(흉부 CT 스캔을 위한 3D 비전-언어 인코더) 가 Hugging Face에 가중치(weights)를 공개했다는 발표입니다. 모델·데모·논문 링크를 함께 제공하며 의료 영상 분야의 멀티모달 모델 연구와 임상 적용 가능성에 중요한 진전입니다.

https://x.com/fepegar_/status/2017258681843298524

#colipri #medicalai #visionlanguage #huggingface #msftresearch

Fernando Pérez-García (@fepegar_) on X

We are excited to release the weights of @MSFTResearch's COLIPRI, our 3D vision–language encoder for chest CT scans, on @huggingface🤗 Model: https://t.co/qmhZU6zNc8 Demo: https://t.co/uDiz3NDKlq Paper: https://t.co/hbFWFpaPXv Why does COLIPRI matter? 🧵0/12 👇

X (formerly Twitter)