Z.ai (@Zai_org)

CogViT 비전 인코더의 기술적 핵심을 소개. SigLIP2와 DINOv3를 활용한 듀얼 티처 증류, 마스크드 모델링과 대조학습의 2단계 사전학습, 대규모 학습 안정화를 위한 QK-Norm, 멀티모달 멀티토큰 예측을 설명한다.

https://x.com/Zai_org/status/2052426791004876863

#visionencoder #multimodal #distillation #pretraining #cv

Z.ai (@Zai_org) on X

Technical highlights: CogViT Vision Encoder - Built with dual-teacher distillation: SigLIP2 for semantics, DINOv3 for texture. A two-stage recipe, masked modeling, then contrastive pretraining, with QK-Norm for attention stability at scale. Multimodal Multi-Token Prediction

X (formerly Twitter)

fly51fly (@fly51fly)

Meta AI 연구진이 멀티모달 이해 및 생성에서 비전 인코더보다 픽셀 임베딩이 더 우수할 수 있다는 내용의 논문 Tuna-2를 발표했다. 이미지 표현 방식에 대한 새로운 연구 결과로, 멀티모달 모델 설계와 시각 인코딩 접근법에 중요한 시사점을 제공한다.

https://x.com/fly51fly/status/2050700799974797468

#multimodal #computervision #metaai #research #visionencoder

fly51fly (@fly51fly) on X

[CV] Tuna-2: Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation Z Liu, W Ren, X Huang, S Chen… [Meta AI] (2026) https://t.co/4eLtW9Lcih

X (formerly Twitter)