AshutoshShrivastava (@ai_for_success)

Google Photos의 ‘Ask’ 기능이 사진 검색을 대화형으로 매우 강력하게 만들어준다. 3만5천 장이 넘는 사진 중에서도 “아들이 어깨에 올라탄 사진”처럼 자연어로 입력하면 관련 이미지를 찾아준다. 일부 오탐이 있어도 실사용 가치가 큰 혁신적인 AI 기능 사례다.

https://x.com/ai_for_success/status/2040505455848644706

#googlephotos #ai #photosearch #multimodal #productivity

AshutoshShrivastava (@ai_for_success) on X

The “Ask” feature in Google Photos is insanely powerful. I have 35,257 photos, and I can simply type: “Show me a photo of Ashutosh carrying Ethan (my son) on his shoulder” It returns all images matching this criteria. Yes, there are a few incorrect or extra results, but it’s

X (formerly Twitter)

田中義弘 | taziku CEO / AI × Creative (@taziku_co)

영상 생성의 발전이 단순한 모델 규모 경쟁을 넘어, RGB뿐 아니라 법선·재질·기하 정보를 활용해 영상 생성을 구조적으로 제어하는 방향으로 진화하고 있다고 설명했다. 외형을 맞추는 수준에서 구조 전체를 다루는 단계로 발전했다는 점을 강조했다.

https://x.com/taziku_co/status/2040571925060362562

#videogeneration #multimodal #3d #computervision #generativeai

田中義弘 | taziku CEO / AI × Creative (@taziku_co) on X

映像生成の進化は、 もうモデルの派手さだけでは測れない。 RGBだけで世界を学ぶのでなく、 法線・材質・幾何を持った状態で動画生成へ寄せる発想。 「見た目を当てる」から 「構造ごと制御する」へ一段進んだ感じがある。 詳細は🧵

X (formerly Twitter)

Artificial Analysis (@ArtificialAnlys)

Google이 Gemma 4를 공개했다. 멀티모달리티를 지원하는 4개의 오픈 웨이트 모델이며, 플래그십 31B 모델은 출력 토큰 사용량이 경쟁 모델보다 약 2.5배 적다고 소개됐다. 다만 지능 지표에서는 Qwen3.5 27B보다 3점 낮다고 언급됐다.

https://x.com/ArtificialAnlys/status/2040241636089729451

#google #gemma4 #multimodal #openweights #llm

Artificial Analysis (@ArtificialAnlys) on X

Google has released Gemma 4, four open weights models with multimodality support. The flagship 31B model (39 on the Intelligence Index) uses ~2.5x fewer output tokens than Qwen3.5 27B (Reasoning, 42) but trails it by 3 points on intelligence @GoogleDeepMind's Gemma 4 includes

X (formerly Twitter)

Justine Moore (@venturetwins)

실제 세계의 특정 장소를 매우 잘 인식하는 모델들의 능력을 보여주는 예시 트윗이다. NeurIPS 2025 포스터 홀, 스탠퍼드 캠퍼스를 자전거로 달리는 시점 등 간단한 프롬프트만으로도 장면을 생성하거나 이해하는 성능을 시연했다. 공간 이해와 현실감 있는 비전 모델의 발전을 시사한다.

https://x.com/venturetwins/status/2040276591000117690

#visionlanguage #aimodels #spatialreasoning #neuralnetworks #multimodal

Justine Moore (@venturetwins) on X

These models have a remarkable ability to know what specific locations in the real world look like. These are a couple examples, prompts were also simple: "Poster hall at NeurIPS 2025" "POV from a biker riding around the Stanford campus" Zoom in on the poster text 😲

X (formerly Twitter)

🧠 Z.AI ships GLM-5V-Turbo

Z.AI added GLM-5V-Turbo with positioning around vision-based coding, GUI task execution, and multimodal planning across images, video, and text. The notable angle is visually grounded agent workflows instead of generic VLM demos.

solomonneas.dev/intel

#AI #MachineLearning #AgentAI #Multimodal

Omar Sanseviero (@osanseviero)

Gemma 4 패밀리 모델에 대한 시각적 가이드를 소개하는 글로, Per-Layer Embeddings부터 비전·오디오 인코더까지 포함한 아키텍처 심층 분석을 제공한다. 새로운 모델 계열의 구조와 멀티모달 구성 요소를 이해하는 데 유용한 자료다.

https://x.com/osanseviero/status/2040105484061954349

#gemma #multimodal #llm #ai #google

Omar Sanseviero (@osanseviero) on X

Introducing a Visual Guide to Gemma 4 👀 An in-depth, architectural deep dive of the Gemma 4 family of models. From Per-Layer Embeddings to the vision and audio encoders. Take a look!

X (formerly Twitter)

Abhishek Yadav (@abhishek__AI)

Zhipu AI가 이미지, 영상, UI 상태를 실제 코드로 변환하는 멀티모달 코딩 모델 GLM 5V Turbo를 공개했다. CogViT와 MTP 기반이며, 에이전트 실행, 20만 컨텍스트, 12.8만 출력 지원으로 Claude Code 및 OpenClaw용으로 설계됐다.

https://x.com/abhishek__AI/status/2039914086381867024

#zhipuai #glm5vturbo #multimodal #codingmodel #agents

Abhishek Yadav (@abhishek__AI) on X

🚨 Zhipu AI just dropped a multimodal coding beast. GLM 5V Turbo converts images, videos & UI states into real code. → Built with CogViT + MTP → Executes actions via agents → 200K context + 128K output → Reads screenshots, docs, videos Built for Claude Code & OpenClaw

X (formerly Twitter)

Latent.Space (@latentspacepod)

Gemma 4가 공개됐다. 세계 최고 수준의 소형 멀티모달 오픈 모델로 소개되며, Gemma 3보다 전반적으로 크게 향상됐다고 설명한다. 소형 오픈 멀티모달 모델의 중요한 진전으로 보인다.

https://x.com/latentspacepod/status/2039962128208322769

#gemma #multimodal #openmodel #llm #google

Latent.Space (@latentspacepod) on X

[AINews 3 Apr 2026] Gemma 4: The world's best small Multimodal Open Models, dramatically better than Gemma 3 in every way https://t.co/x1t7zCgwXM Congrats team!!

X (formerly Twitter)

Wan (@Alibaba_Wan)

Wan2.7-Video가 공개되었습니다. 텍스트 등 멀티모달 입력으로 성능과 스타일을 제어하며, 단일 클립부터 서사형 비디오 스토리텔링까지 다룰 수 있는 ‘컨트롤 가능한 비디오 스토리텔링’용 모델입니다.

https://x.com/Alibaba_Wan/status/2040051865581469704

#wan27 #video #multimodal #generativeai #model

AA (@measure_plan)

Gemma 4의 비전 기능을 활용해 Roboflow RF-DETR로 객체를 먼저 탐지하고, Gemma가 장면을 한 문장으로 요약하는 앱을 만들어 실험했습니다. 객체 인식과 멀티모달 요약을 결합한 실용적 AI 응용 사례입니다.

https://x.com/measure_plan/status/2039815699695104343

#gemma #roboflow #objectdetection #visionai #multimodal

AA (@measure_plan) on X

i spent the afternoon experimenting with Gemma 4's vision capabilities made an app that uses roboflow RF-DETR for a first pass of object detections and Gemma to summarize the scene in one sentence for fun i asked Gemma to "describe what you see as if you were a medieval bard"

X (formerly Twitter)