Abhishek Yadav (@abhishek__AI)

Zhipu AI가 이미지, 영상, UI 상태를 실제 코드로 변환하는 멀티모달 코딩 모델 GLM 5V Turbo를 공개했다. CogViT와 MTP 기반이며, 에이전트 실행, 20만 컨텍스트, 12.8만 출력 지원으로 Claude Code 및 OpenClaw용으로 설계됐다.

https://x.com/abhishek__AI/status/2039914086381867024

#zhipuai #glm5vturbo #multimodal #codingmodel #agents

Abhishek Yadav (@abhishek__AI) on X

🚨 Zhipu AI just dropped a multimodal coding beast. GLM 5V Turbo converts images, videos & UI states into real code. → Built with CogViT + MTP → Executes actions via agents → 200K context + 128K output → Reads screenshots, docs, videos Built for Claude Code & OpenClaw

X (formerly Twitter)

Latent.Space (@latentspacepod)

Gemma 4가 공개됐다. 세계 최고 수준의 소형 멀티모달 오픈 모델로 소개되며, Gemma 3보다 전반적으로 크게 향상됐다고 설명한다. 소형 오픈 멀티모달 모델의 중요한 진전으로 보인다.

https://x.com/latentspacepod/status/2039962128208322769

#gemma #multimodal #openmodel #llm #google

Latent.Space (@latentspacepod) on X

[AINews 3 Apr 2026] Gemma 4: The world's best small Multimodal Open Models, dramatically better than Gemma 3 in every way https://t.co/x1t7zCgwXM Congrats team!!

X (formerly Twitter)

Wan (@Alibaba_Wan)

Wan2.7-Video가 공개되었습니다. 텍스트 등 멀티모달 입력으로 성능과 스타일을 제어하며, 단일 클립부터 서사형 비디오 스토리텔링까지 다룰 수 있는 ‘컨트롤 가능한 비디오 스토리텔링’용 모델입니다.

https://x.com/Alibaba_Wan/status/2040051865581469704

#wan27 #video #multimodal #generativeai #model

AA (@measure_plan)

Gemma 4의 비전 기능을 활용해 Roboflow RF-DETR로 객체를 먼저 탐지하고, Gemma가 장면을 한 문장으로 요약하는 앱을 만들어 실험했습니다. 객체 인식과 멀티모달 요약을 결합한 실용적 AI 응용 사례입니다.

https://x.com/measure_plan/status/2039815699695104343

#gemma #roboflow #objectdetection #visionai #multimodal

AA (@measure_plan) on X

i spent the afternoon experimenting with Gemma 4's vision capabilities made an app that uses roboflow RF-DETR for a first pass of object detections and Gemma to summarize the scene in one sentence for fun i asked Gemma to "describe what you see as if you were a medieval bard"

X (formerly Twitter)

Simon Willison (@simonw)

Mac 로컬 환경에서 Gemma 4 E2B 또는 E4B를 오디오 파일에 적용해 실행하는 방법을 찾고 있다는 질문이다. 구체적인 구현 레시피를 공유해 달라는 내용으로, Gemma 4의 로컬 멀티모달 활용 가능성을 시사한다.

https://x.com/simonw/status/2039855544928981476

#gemma #multimodal #audio #localai #mac

Simon Willison (@simonw) on X

Anyone figured out a recipe to run Gemma 4 E2B or E4B against audio files locally on a Mac yet?

X (formerly Twitter)

Qwen (@Alibaba_Qwen)

Qwen3.6-Plus가 ‘실세계 에이전트’를 목표로 공개되었다. 네이티브 멀티모달 에이전트와 더 똑똑하고 빠른 에이전틱 코딩을 강조하며, AI 에이전트 기술의 주요 진전으로 보인다.

https://x.com/Alibaba_Qwen/status/2039705104723611829

#qwen #agenticcoding #multimodal #aiagents #llm

Qwen (@Alibaba_Qwen) on X

(1/8)🚀 Introducing Qwen3.6-Plus: Towards Real-World Agents! 🤖 Today, we’re thrilled to drop a major milestone in our journey toward native multimodal agents. Here is what makes Qwen3.6-Plus a game-changer: 💻 Next-level Agentic Coding: Smarter, faster execution. 👁️

X (formerly Twitter)

cedric (@cedric_chee)

구글의 Gemma 4가 공개됐다. 31B 모델은 256K 컨텍스트, 강한 장문 처리 아키텍처, 멀티모달 추론, 비디오 이해 기능을 갖춘 핵심 오픈웨이트 밀집 모델로 소개됐다. 로컬 환경에서 고성능 프런티어급 지능을 구현하는 점이 주목된다.

https://x.com/cedric_chee/status/2039755085388108159

#gemma #google #openweights #multimodal #llm

cedric (@cedric_chee) on X

Gemma 4 is where frontier intelligence is getting very local. A solid release. Worth the long wait. 31B is the real standout: flagship open-weight dense model with 256K context, strong long-context architecture, multimodal thinking, and video understanding. 26B A4B is puching

X (formerly Twitter)

merve (@mervenoyann)

Google DeepMind가 로컬 환경에서 실행 가능한 다중 모달 AI 모델 Gemma 4를 여러 크기로 공개했다. 자유 라이선스가 적용되며, transformers, llama.cpp, transformers.js 등 주요 도구에 바로 통합해 에이전트와 함께 플러그앤플레이로 사용할 수 있다고 소개한다.

https://x.com/mervenoyann/status/2039739097611215344

#googledeepmind #gemma4 #localai #multimodal #opensource

merve (@mervenoyann) on X

future is local 🔥 Google DeepMind just released Gemma 4: local frontier in many sizes, all modalities with free license 🤯 we ship Gemma 4 in transformers, llama.cpp, transformers.js and more for your convenience 🫡 plug-and-play with your agents 🙌🏻 read our blog ⤵️

X (formerly Twitter)

Omar Sanseviero (@osanseviero)

새 모델이 성능 대비 크기 효율이 매우 뛰어나다고 소개하며, 지난 12개월간의 피드백을 반영해 추론 능력, 멀티모달 이해(OCR·음성 인식·객체 탐지), 긴 컨텍스트, 에이전트 기능 등을 크게 강화했다고 밝혔습니다. 구체적 모델명은 없지만 기술 업데이트 성격이 강합니다.

https://x.com/osanseviero/status/2039736380272570478

#multimodal #ocr #speechrecognition #agenticai #longcontext

Omar Sanseviero (@osanseviero) on X

The team cooked a super impressive model, specially for the sizes! We've incorporated all the feedback from the last 12 months: thinking, expanded multimodal understanding (OCR, speech recognition, object detection), longer context, agentic, and more! https://t.co/llozjYtrkJ

X (formerly Twitter)

Omar Sanseviero (@osanseviero)

Gemma 4가 공개되었습니다. 31B와 26B A4B 모델은 파라미터 대비 높은 성능을 내고, E2B/E4B는 모바일·IoT용으로 제공됩니다. Apache 2.0 라이선스이며 base와 instruction 체크포인트가 공개됐고, AI Studio·Hugging Face·Ollama·Android 등에서 바로 사용할 수 있습니다.

https://x.com/osanseviero/status/2039736377181434329

#gemma #llm #opensource #multimodal #mobileai

Omar Sanseviero (@osanseviero) on X

Gemma 4 is here! 🧠 31B and 26B A4B for models with impressive intelligence per parameter 🤏E2B and E4B for mobile and IoT 🤗Apache 2.0 🤖Base and IT checkpoints available Available in AI Studio, Hugging Face, Ollama, Android, and your favorite OS tools 🚀Download it today!

X (formerly Twitter)