Microsoft Research (@MSFTResearch)

Phi-4-reasoning-vision-15B는 컴팩트하고 빠른 멀티모달 추론 모델로, 기존 비전-언어 모델이 갖는 느림·비용·배포 난제를 완화하도록 설계되었습니다. 다양한 방법의 장점을 결합해 효율적 배포와 향상된 추론 속도를 목표로 하는 최신 멀티모달 연구·제품입니다.

https://x.com/MSFTResearch/status/2029260461707870469

#phi4 #multimodal #visionlanguage #reasoning

Microsoft Research (@MSFTResearch) on X

Vision-language models improve multimodal systems, but can make them slower, costlier, and harder to deploy. Learn how Phi-4-reasoning-vision-15B, a compact and fast multimodal reasoning model, blends strengths of different methods while reducing their limits:

X (formerly Twitter)

The Humanoid Hub (@TheHumanoidHub)

Physical Intelligence의 π0.6 모델이 실사용 사례에 적용되었다. Weave는 자율 빨래 개기(autonomous laundry folding)에, Ultra는 전자상거래 포장에 활용되며, 해당 모델들은 시각·언어·행동 통합을 목표로 하는 Vision-Language-Action(VLA) 프레임워크 기반으로 설계되었다.

https://x.com/TheHumanoidHub/status/2026455516034306150

#visionlanguage #robotics #automation #vla

The Humanoid Hub (@TheHumanoidHub) on X

Physical Intelligence’s π0.6 models in real-world use cases Weave (left): Autonomous laundry folding Ultra (right): E-commerce packaging The models are built on a Vision-Language-Action (VLA) framework.

X (formerly Twitter)

merve (@mervenoyann)

OpenEnv를 비전-언어 모델(VLM)으로 확장하는 실험 기록. 이미지를 그리드로 렌더링해 base64 관측으로 전달하는 스네이크(snake) 환경을 만들어 VLM이 이미지 관측을 처리하도록 했고, 소규모(3 에피소드) 리플레이를 시연했다는 개발 노트.

https://x.com/mervenoyann/status/2020826014729826309

#openenv #visionlanguage #rl #simulation

merve (@mervenoyann) on X

I played with OpenEnv today to see how it can be extended to vision language models that see images as grids for starter I built a snake environment that renders as image and the image is directly sent as base64 observation here's a small three episode replay of snake, it was a

X (formerly Twitter)

New benchmark reveals that top multimodal models still stumble below 50% accuracy on basic visual entity tasks. The gap highlights limits in current vision‑language training and raises questions about real‑world reliability. Dive into the findings and what they mean for future AI research. #MultimodalLearning #VisionLanguage #EntityRecognition #AIBenchmarking

🔗 https://aidailypost.com/news/top-multimodal-models-fail-exceed-50-accuracy-basic-visual-entity

LMSYS Org (@lmsysorg)

DeepSeek-OCR 2가 Visual Causal Flow를 도입하고 SGLang으로 실행 가능해졌습니다. DeepEncoder V2를 활용해 기존의 좌상→우하 고정 스캔 대신 이미지 내용 기반으로 시각 토큰 순서를 재정렬하고 단계별(스텝별) 비주얼 처리를 수행하여 OCR 및 비전-언어 처리의 유연성과 정확도 향상이 기대됩니다.

https://x.com/lmsysorg/status/2017305889490014281

#deepseek #ocr #visionlanguage #sglang

LMSYS Org (@lmsysorg) on X

🚀 DeepSeek-OCR 2 by @deepseek_ai introduces a new Visual Causal Flow, and you can now run it with SGLang 🔥 Highlights 👀 Uses DeepEncoder V2 to reorder visual tokens based on image content, instead of a fixed top-left → bottom-right scan 🧠Performs step-by-step visual

X (formerly Twitter)

Kimon Fountoulakis (@kfountou)

SOTA LVLM 모델들의 오픈월드 물체 개수 세기를 평가한 방대한 연구(약 40페이지 분량의 실험)가 TMLR에 수락되었다는 내용으로, 대규모 실험을 통해 LVLM의 물체 계수 성능을 체계적으로 검증했다는 소식입니다.

https://x.com/kfountou/status/2017294637661102366

#lvml #visionlanguage #objectcounting #tmlr #research

Kimon Fountoulakis (@kfountou) on X

The amount of work that has gone into evaluating SOTA LVLM models for open-world object counting is impressive. Basically, 40 pages of experiments. Accepted at TMLR.

X (formerly Twitter)

Fernando Pérez-García (@fepegar_)

Microsoft Research의 COLIPRI(흉부 CT 스캔을 위한 3D 비전-언어 인코더) 가 Hugging Face에 가중치(weights)를 공개했다는 발표입니다. 모델·데모·논문 링크를 함께 제공하며 의료 영상 분야의 멀티모달 모델 연구와 임상 적용 가능성에 중요한 진전입니다.

https://x.com/fepegar_/status/2017258681843298524

#colipri #medicalai #visionlanguage #huggingface #msftresearch

Fernando Pérez-García (@fepegar_) on X

We are excited to release the weights of @MSFTResearch's COLIPRI, our 3D vision–language encoder for chest CT scans, on @huggingface🤗 Model: https://t.co/qmhZU6zNc8 Demo: https://t.co/uDiz3NDKlq Paper: https://t.co/hbFWFpaPXv Why does COLIPRI matter? 🧵0/12 👇

X (formerly Twitter)

Fernando Pérez-García (@fepegar_)

Microsoft Research의 COLIPRI(흉부 CT용 3D 비전-언어 인코더) 가중치(weights)를 Hugging Face에 공개했다고 발표. 모델·데모·논문 링크를 함께 제공하며, 의료영상 분야의 비전-언어 연구와 임상용 AI 개발에 중요한 오픈 가중치 공개다.

https://x.com/fepegar_/status/2017258681843298524

#microsoftresearch #colipri #huggingface #medicalimaging #visionlanguage

Fernando Pérez-García (@fepegar_) on X

We are excited to release the weights of @MSFTResearch's COLIPRI, our 3D vision–language encoder for chest CT scans, on @huggingface🤗 Model: https://t.co/qmhZU6zNc8 Demo: https://t.co/uDiz3NDKlq Paper: https://t.co/hbFWFpaPXv Why does COLIPRI matter? 🧵0/12 👇

X (formerly Twitter)

Kimi.ai (@Kimi_Moonshot)

Kimi K2.5 기술보고서 공개: 텍스트·비전 공동 사전학습(15T 비전-텍스트 토큰)과 '제로-비전 SFT'(텍스트 전용으로 시각 추론 활성화)를 도입했고, Agent Swarm + PARL로 동적 병렬 서브에이전트 오케스트레이션을 구현해 지연을 최대 4.5배 줄였으며 주요 벤치마크에서 78.4% 성과를 보고하는 등 멀티모달·에이전트 아키텍처 관련 핵심 업데이트를 담고 있습니다.

https://x.com/Kimi_Moonshot/status/2017249233775260021

#kimi #multimodal #agentswarm #parl #visionlanguage

Kimi.ai (@Kimi_Moonshot) on X

Kimi K2.5 tech report just dropped! Quick hits: - Joint text–vision training: pretrained with 15T vision-text tokens, zero-vision SFT (text-only) to activate visual reasoning - Agent Swarm + PARL: dynamically orchestrated parallel sub-agents, up to 4.5× lower latency, 78.4% on

X (formerly Twitter)

New research reveals fresh ways to fool vision‑language models like CLIP, exposing gaps in image classification and neural‑network defenses. The study updates adversarial‑attack techniques and highlights AI security challenges for multimodal AI. Open‑source communities can help harden these systems—read the full findings now. #AdversarialAttacks #VisionLanguage #CLIP #MultimodalAI

🔗 https://aidailypost.com/news/researchers-update-classifier-evasion-techniques-vision-language