Qwen veröffentlicht die neuen Modelle Qwen 3.5 Omni Plus und eine Realtime-Version mit einer Hybrid-Attention MoE-Architektur. Sie verarbeiten Bild, Text und Audio nativ bei 256.000 Token Kontextfenster. In Benchmarks wie VoiceBench und Fleurs übertreffen die Modelle Gemini 3.1 Pro bei Audio-Aufgaben messbar.
#Qwen #LLM #Multimodal #KI #News
https://www.all-ai.de/news/news26top/qwen-3-5-omni-plus-test
Qwen (@Alibaba_Qwen)
Qwen3.5-Omni가 공개되었다. 텍스트, 이미지, 오디오, 비디오를 모두 네이티브로 이해하는 옴니모달 모델로, 지능 향상과 실시간 상호작용을 크게 강화했다고 밝혔다. 특히 오디오-비주얼 기반의 'Vibe Coding' 기능을 강조하며 차세대 멀티모달 AGI 방향성을 제시한다.

🚀 Qwen3.5-Omni is here! Scaling up to a native omni-modal AGI. Meet the next generation of Qwen, designed for native text, image, audio, and video understanding, with major advances in both intelligence and real-time interaction. A standout feature: 'Audio-Visual Vibe Coding'.
el.cine (@EHuanglu)
Seedance 3.0의 내부 테스트가 진행 중이며, 1080p 화질과 10~18분 길이의 영상 생성이 가능하다고 언급했다. ‘one click film’ 기능이 거의 완성 단계라고 밝혀, 장편 영상 생성 AI 도구의 큰 진전을 예고하는 내용이다.
"Roadrunner": a bipedal, wheeled robot for multi-modal locomotion [video]
https://www.youtube.com/watch?v=9kae-UAME1U
#HackerNews #Roadrunner #Robot #MultiModal #Locomotion #Bipedal #Robotics #Innovation

Koldo Huici (@koldo2k)
Seedance 2.0를 사용해 동일한 참조 이미지로 3개의 클립을 생성한 사례를 소개한 트윗입니다. 생성형 영상/멀티모달 AI 도구의 활용을 보여주는 예시로, 이미지 기반 영상 생성 워크플로우의 발전을 시사합니다.
https://x.com/koldo2k/status/2037624390821581150
#seedance #generativeai #videogeneration #multimodal #aigenerated
Google Gemini (@GeminiApp)
Gemini 앱에서 바로 영상을 생성할 수 있는 새 기능을 소개합니다. 앱 또는 웹에서 ‘Create video’를 선택하고, 원하는 영상 설명을 입력하거나 참고 이미지를 업로드해 템플릿 스타일을 지정한 뒤 전송하면 영상 생성이 가능합니다.

Ready to make videos in Gemini? 1) Open the app or go to https://t.co/awhPeHZIqm 2) Select “Create video” in the tools menu 3) Describe the video you want to make (you can upload a reference image or select a template for a style you prefer, too) 4) Hit send and enjoy!
Justine Moore (@venturetwins)
LumaLabsAI의 새 모델 Uni-1이 공개되며 텍스트로 만화와 스토리보드를 생성하는 기능이 소개됐다. 사용자의 X 프로필을 읽어 삶을 만화로 만들고, 캐릭터 시트 생성부터 패널 렌더링, 결과 검증까지 수행하는 멀티스텝 콘텐츠 생성 AI로 보인다.
https://x.com/venturetwins/status/2037336754454446234
#texttomanga #lumalabs #generativeai #multimodal #contentcreation

Text-to-manga is here ✨ I asked the new Uni-1 from @LumaLabsAI to read my X profile and make a manga about my life. It wrote a story about me + @omooretweets disagreeing on a pitch - and then constructed character sheets, rendered panels, and checked its work. The output 👇
Omar Sanseviero (@osanseviero)
MedGemma Impact Challenge가 종료됐다. 850개가 넘는 팀이 참여해 서아프리카 국가들의 다국어 비정형 임상 관찰 기록을 활용하거나 피부 변화 추적 등 의료 혁신 프로젝트를 제작했다. 헬스케어 AI 응용 사례와 모델 활용 가능성을 보여준 의미 있는 대회였다.
https://x.com/osanseviero/status/2037270697160958206
#medgemma #healthcareai #aiapplication #multimodal #clinicalai

The MedGemma Impact Challenge has concluded 👀 Over 850 teams built great projects aiming to transform health, from enabling west african states to transform multilingual unstructured clinical observations to skin changes tracking. Lots of amazing projects