SANA-WM, a 2.6B open-source world model for 1-minute 720p video
SANA-WM은 26억 파라미터의 오픈소스 월드 모델로, 단일 GPU에서 1분 길이의 720p 고화질 영상을 생성한다. 하이브리드 선형 어텐션과 6-DoF 카메라 제어, 2단계 생성 파이프라인을 통해 긴 시퀀스의 일관성과 품질을 유지하며, 64개의 H100 GPU로 15일간 학습 후 단일 GPU에서 실시간 추론이 가능하다. 공개된 21만 3천 개 영상 클립과 정밀한 카메라 위치 주석을 활용해 효율성과 정확도를 크게 개선했다. 이는 기존 대규모 산업용 모델과 비슷한 품질을 내면서도 36배 높은 처리량을 달성해 AI 영상 합성 및 시뮬레이션 분야에 실용적 진전을 보여준다.
https://nvlabs.github.io/Sana/WM/
#opensource #videogeneration #worldmodel #transformer #gpuinference


