Emily (@IamEmily2050)

영상 분석이나 비디오를 보는 에이전트를 만들기 위한 시스템 프롬프트를 공유한 트윗이다. 영화 편집자·촬영 분석가 역할을 부여해 움직이는 영상 자료를 검토하도록 설계할 수 있으며, 이를 Skill 형태로도 구현할 수 있다고 언급한다.

https://x.com/IamEmily2050/status/2035478727950237919

#aiagent #videoanalysis #promptengineering #multimodal #llm

Emily (@IamEmily2050) on X

If you want to anylize videos or build an agent that can watch videos for you and send you the report or an app, this is the system prompt for it, you can even make it as a Skill. You are a film editor and cinematography analyst reviewing moving-image material in

X (formerly Twitter)

田中義弘 | taziku CEO / AI × Creative (@taziku_co)

LumaLabsAI의 Uni-1이 소개됐다. 이 모델은 다양한 스타일을 이해하고, 참조 이미지·시각적 지시·스케치 등을 활용해 제어할 수 있는 멀티모달 기반으로 설명된다. 단순 생성 성능을 넘어 세계를 어떻게 이해하느냐까지 통합한 차세대 AI 접근이 강조됐다.

https://x.com/taziku_co/status/2035469090933133557

#lumalabs #uni1 #multimodal #generativeai #model

田中義弘 | taziku CEO / AI × Creative (@taziku_co) on X

生成AIの「理解」と「生成」を統合する最初の一手 @LumaLabsAIのUni-1は、様々なスタイルを理解し、参照、視覚的な指示、スケッチなどを用いて制御できる。 作る力だけを伸ばしても限界があり、これからは世界をどう理解するかまで含めたマルチモーダル基盤が勝負になる。

X (formerly Twitter)

Artificial Analysis (@ArtificialAnlys)

Mistral이 Mistral Small 4를 공개했습니다. 이 모델은 오픈 웨이트, 하이브리드 추론, 이미지 입력을 지원하며 Artificial Analysis Intelligence Index에서 27점을 기록했습니다. 119B MoE 구조와 토큰당 6.5B 활성 파라미터를 갖춘 것이 특징입니다.

https://x.com/ArtificialAnlys/status/2034960206736892365

#mistral #openweights #multimodal #reasoning #llm

Artificial Analysis (@ArtificialAnlys) on X

Mistral has released Mistral Small 4, an open weights model with hybrid reasoning and image input, scoring 27 on the Artificial Analysis Intelligence Index @MistralAI's Small 4 is a 119B mixture-of-experts model with 6.5B active parameters per token, supporting both reasoning

X (formerly Twitter)
Hupac grows volumes despite infrastructure disruption http://dlvr.it/TRbgpX #BrittaWeber #Hupac #Multimodal #rail

MiMo-V2-Pro, Omni, TTS 출시 — 에이전트 시대를 겨냥한 첫 풀스택 모델 패밀리. 1T 베이스로 장기 문맥(1M)·효율적 추론에 초점, Hybrid Attention과 MTP로 저지연·저비용 달성. 팀의 'orchestrated Context' 실험이 연구 속도 가속화. 안정화 후 오픈소스 공개 예정.

https://x.com/_LuoFuli/status/2034379957913129140

#ai #agents #multimodal #models #innovation

Fuli Luo (@_LuoFuli) on X

MiMo-V2-Pro & Omni & TTS is out. Our first full-stack model family built truly for the Agent era. I call this a quiet ambush — not because we planned it, but because the shift from Chat to Agent paradigm happened so fast, even we barely believed it. Somewhere in between was a

X (formerly Twitter)

TestingCatalog News (@testingcatalog)

Grok의 X용 음성 모드가 웹과 안드로이드 앱에 배포되었다. 사용자 인터페이스와 접근성을 강화하는 제품 업데이트로, Grok의 멀티모달/음성 상호작용 기능 확장 측면에서 주목할 만하다.

https://x.com/testingcatalog/status/2034789101765804066

#grok #voicemode #x #android #multimodal

TestingCatalog News 🗞 (@testingcatalog) on X

Voice mode on Grok for X has been rolled out on the web and Android apps.

X (formerly Twitter)

Brie Wensleydale (@SlipperyGem)

음성 합성(TTS)의 감정 제어 성능이 매우 좋고, 노래까지 가능한 기능을 언급하며 향후 Xiaomi 계열 모델들에 대한 기대감을 드러낸다. 혁신적인 TTS 기능과 멀티모달 음성 응용 가능성을 보여주는 반응형 트윗이다.

https://x.com/SlipperyGem/status/2034769970228601070

#tts #voiceai #multimodal #xiaomi #speech

Brie Wensleydale🧀🐭 (@SlipperyGem) on X

Wow, that's seriously good emotion control. The TTS can sing too! Getting my hopes up for the various Xiaomi models in future.

X (formerly Twitter)

fly51fly (@fly51fly)

멀티모달 모델의 테스트 시점 강화학습을 스스로 개선하는 메타인지 프레임워크 ‘Meta-TTRL’ 논문이 공개됐다. 통합 멀티모달 모델의 추론·적응 능력을 향상시키는 자기개선형 학습 방식으로, 최신 AI 학습 프레임워크 연구로 주목된다.

https://x.com/fly51fly/status/2034383972177002605

#multimodal #reinforcementlearning #metacognition #framework #arxiv

fly51fly (@fly51fly) on X

[LG] Meta-TTRL: A Metacognitive Framework for Self-Improving Test-Time Reinforcement Learning in Unified Multimodal Models L S Tan, J Chen, X Fu, L Ma… [Tsinghua University & JD. COM] (2026) https://t.co/dnZdUj2Vst

X (formerly Twitter)

Baidu Inc. (@Baidu_Inc)

Qianfan-OCR가 공개되었습니다. 문서 지능을 위한 4B 파라미터 엔드투엔드 모델로, 단일 패스로 표 추출, 수식 인식, 차트 이해, 핵심 정보 추출을 모두 수행합니다. 파이프라인 없이 문서 처리 작업을 통합한 점이 핵심입니다.

https://x.com/Baidu_Inc/status/2034265136182202765

#ocr #documentai #multimodal #ai #opensource

Baidu Inc. (@Baidu_Inc) on X

🚀 Introducing Qianfan-OCR: a 4B-parameter end-to-end model for document intelligence. One model. No pipeline. Table extraction, formula recognition, chart understanding, and key information extraction, all in a single pass. Paper: https://t.co/cmNhv5SLgV Models:

X (formerly Twitter)

Brie Wensleydale (@SlipperyGem)

샤오미의 모델들이 확인되었다는 내용입니다. 'Hunter'는 샤오미의 플래그십 LLM이며, 'Healer'는 멀티모달 LLM으로 둘 다 MiMo-V2-Pro 계열에 속한다고 소개합니다. 작성자는 샤오미가 진지하게 다뤄야 할 플레이어라고 평가합니다.

https://x.com/SlipperyGem/status/2034422650114846805

#xiaomi #llm #multimodal #mimov2pro #hunter

Brie Wensleydale🧀🐭 (@SlipperyGem) on X

Ah, so they were indeed Xiaomi's models. Hunter is their flagship LLM and Healer is their multi-modal LLM, of their MiMo-V2-Pro family. Neat. Xiaomi should always be taken seriously when they decide to do things. (This post is brought to you by the Xiaomi Gang)

X (formerly Twitter)