Pengfei Liu (@stefan_fee)
Seedance 2.0이 인상적이지만 오픈소스가 아니라는 언급과 함께, 비디오와 오디오를 동시에 생성하는 단일 스트림 15B Transformer 기반 daVinci-MagiHuman을 새로 소개했다. 크로스어텐션이나 멀티스트림 없이 self-attention만 사용하며, 처음부터 학습한 생성형 멀티모달 모델로 보인다.
https://x.com/stefan_fee/status/2036450014394982413
#transformer #videogeneration #audiogeneration #multimodal #model

Pengfei Liu (@stefan_fee) on X
Seedance 2.0 is impressive. But it's closed-source! Introducing our daVinci-MagiHuman — a single-stream 15B Transformer trained from scratch that jointly generates video + audio. No cross-attention. No multi-stream branches. Just self-attention. ⚡ 5s 1080p video in 38s on a