Omar Sanseviero (@osanseviero)

MedGemma Impact Challenge가 종료됐다. 850개가 넘는 팀이 참여해 서아프리카 국가들의 다국어 비정형 임상 관찰 기록을 활용하거나 피부 변화 추적 등 의료 혁신 프로젝트를 제작했다. 헬스케어 AI 응용 사례와 모델 활용 가능성을 보여준 의미 있는 대회였다.

https://x.com/osanseviero/status/2037270697160958206

#medgemma #healthcareai #aiapplication #multimodal #clinicalai

Omar Sanseviero (@osanseviero) on X

The MedGemma Impact Challenge has concluded 👀 Over 850 teams built great projects aiming to transform health, from enabling west african states to transform multilingual unstructured clinical observations to skin changes tracking. Lots of amazing projects

X (formerly Twitter)

el.cine (@EHuanglu)

Gemini 3.1 Flash Live가 매우 빠르고 더 똑똑해졌다는 평가다. 사용자의 화면과 소리를 실시간으로 보고 들으면서, 즉석에서 가르쳐주는 형태의 멀티모달 라이브 AI 기능이 강조됐다.

https://x.com/EHuanglu/status/2037219331785056288

#gemini #google #multimodal #aivision #realtime

el.cine (@EHuanglu) on X

Gemini 3.1 Flash Live is crazy faster and smarter.. it can see and hear what you’re doing.. teach you anything in real time

X (formerly Twitter)

Meituan LongCat (@Meituan_LongCat)

LongCat-Next라는 새로운 디스크리트 네이티브 오토리그레시브 멀티모달 모델이 발표됐다. 언어, 비전, 오디오를 하나의 통합 모델로 결합해 네이티브 멀티모달리티와 산업용 수준의 성능을 제공하는 것이 특징이다.

https://x.com/Meituan_LongCat/status/2036861293140054510

#longcatnext #multimodal #autoregressive #modelrelease #ai

Meituan LongCat (@Meituan_LongCat) on X

🔥 Introducing LongCat-Next: A Discrete Native Autoregressive Multimodal Model LongCat-Next integrates language, vision, and audio into a unified discrete autoregressive model, extending Next-Token Prediction to native multimodality and delivering industrial-strength performance

X (formerly Twitter)

田中義弘 | taziku CEO / AI × Creative (@taziku_co)

BytePlusGlobal의 Seed 2.0 Pro가 추론, 이미지/비디오 이해뿐 아니라 도구 사용, 업무 흐름 실행, 브라우저·컴퓨터 조작까지 수행하는 자율 에이전트용 실행 엔진으로 소개되었습니다. 업무를 실제로 끝내는 AI를 지향하는 점이 주목됩니다.

https://x.com/taziku_co/status/2036741986422763617

#byteplus #seed20pro #agenticai #multimodal #automation

田中義弘 | taziku CEO / AI × Creative (@taziku_co) on X

AIに求められるのは「最後までやり切る力」 @BytePlusGlobalのSeed 2.0 Proは推論・画像理解・動画理解に加え、ツール利用、業務フロー実行、ブラウザ/コンピュータ操作まで担う自律エージェント向け実行エンジン。 仕事を終わらせるAIとなるか? 詳細は🧵

X (formerly Twitter)

Akshay (@akshay_pachaar)

새로운 OCR 모델이 공개되었으며, olmocr 벤치마크에서 85.9% SOTA를 달성했습니다. 90개 이상의 언어를 지원하고, 모델 크기는 9B에서 4B로 줄었지만 레이아웃 정보, 이미지·도표 캡션 추출, 필기/수식/폼/표 인식 성능이 강합니다. 100% 오픈소스입니다.

https://x.com/akshay_pachaar/status/2036798654758232516

#ocr #opensource #multimodal #documentai #llm

Akshay 🚀 (@akshay_pachaar) on X

Everyone is sleeping on this new OCR model! - 85.9% (sota) on olmocr bench - 90+ language support w/benchmarks - 4B model (down from 9B) - Full layout information - Extracts + captions images and diagrams - Strong handwriting, math, form, table support 100% open-source.

X (formerly Twitter)

Paper Review: The Evolution of Agentic AI and the Forefront of Optimization Techniques

Exploring the latest papers from March 2026, this review covers advances in agentic AI reasoning and collaboration, and compression algorithms dramatically improving LLM inference efficiency.

https://oct-rick-brick.com/en/articles/2026-03-25-paper-review-2026-03-25/

#AIAgents #MachineLearning #Optimization #Multimodal

Rick-Brick

AI論文・ニュース解説の個人技術ブログ

Rick-Brick

Design Arena (@Designarena)

xAI의 Grok Imagine이 Multi Image to Video Arena에서 종합 1위를 차지했다. Elo 1342를 기록했고, 평균 생성 시간 58.9초로 선호도 대비 속도 측면에서 새로운 파레토 프런티어를 제시한 이미지-투-비디오 모델 데뷔 성과다.

https://x.com/Designarena/status/2036533116605702176

#xai #grok #image2video #multimodal #ai

Design Arena (@Designarena) on X

BREAKING: Grok Imagine by @xai takes 1st overall on Multi Image to Video Arena, with an overall Elo of 1342. The team's debut reference image to video model establishes a new Pareto frontier for Preference vs. Speed with an average generation time of 58.9 seconds. Huge

X (formerly Twitter)

AISatoshi (@AiXsatoshi)

Kimi K2.5의 기술 포인트를 소개한 글로, 1T 파라미터 LLM 학습 성공과 함께 context, Agent, multimodal로의 확장을 강조한다. MU Optimizer와 QK Clip은 학습 안정성을 해치지 않으면서 더 적은 토큰으로 더 똑똑하게 만들고, Kim linear는 초장문에서 필요한 정보는 남기고 불필요한 정보는 잊도록 돕는다. Agent Swarms도 핵심 기능으로 언급된다.

https://x.com/AiXsatoshi/status/2036464855650279815

#llm #kimi #agent #multimodal #opensource

AI✖️Satoshi⏩️ (@AiXsatoshi) on X

1TパラメータのLLM学習を成功させ、context、Agent、multimodalにスケールする Kimi K2.5の技術ポイント MU Optimizer + QK Clip =学習を壊さず、少ないトークンでより賢くする Kim linear =超長文でも、必要な情報を残して不要な情報を忘れやすくする Agent Swarms

X (formerly Twitter)

Dan McAteer (@daniel_mac8)

OpenAI의 차기 대형 모델이 몇 주 안에 공개될 수 있다는 소식입니다. 코드명은 Spud이며, 경제적 영향이 클 것이라는 언급과 함께 네이티브 멀티모달 기능을 갖출 가능성이 거론되고 있습니다. 차세대 모델 기대감이 커지고 있습니다.

https://x.com/daniel_mac8/status/2036551684730589565

#openai #model #multimodal #llm #spud

Dan McAteer (@daniel_mac8) on X

OpenAI’s next big model in the next few weeks. > Codename: Spud 🥔 Reportedly will “accelerate the economy”. Also, rumors that it will be natively multi-modal. There were some very vague posts from OAI staff excited about it, so I’m excited too.

X (formerly Twitter)

Pengfei Liu (@stefan_fee)

Seedance 2.0이 인상적이지만 오픈소스가 아니라는 언급과 함께, 비디오와 오디오를 동시에 생성하는 단일 스트림 15B Transformer 기반 daVinci-MagiHuman을 새로 소개했다. 크로스어텐션이나 멀티스트림 없이 self-attention만 사용하며, 처음부터 학습한 생성형 멀티모달 모델로 보인다.

https://x.com/stefan_fee/status/2036450014394982413

#transformer #videogeneration #audiogeneration #multimodal #model

Pengfei Liu (@stefan_fee) on X

Seedance 2.0 is impressive. But it's closed-source! Introducing our daVinci-MagiHuman — a single-stream 15B Transformer trained from scratch that jointly generates video + audio. No cross-attention. No multi-stream branches. Just self-attention. ⚡ 5s 1080p video in 38s on a

X (formerly Twitter)