🌘 [2502.10248] Step-Video-T2V 技術報告: 影片基礎模型的實踐、挑戰和未來
➤ 提升影片生成質量與未來發展方向
https://arxiv.org/abs/2502.10248
這份報告介紹了 Step-Video-T2V,一款擁有 30B 參數的最先進文本轉影片預訓練模型,能生成長達 204 幀的影片。使用深度壓縮變分自編碼器進行視頻生成任務,實現 16x16 空間和 8x 時間壓縮比,同時保持出色的影片重建質量。使用兩個雙語文本編碼器對用戶提示進行編碼,處理英文和中文。訓練了具有 3D 全局關注的 DiT,並使用 Flow Matching 將噪聲轉換為潛在幀。應用基於視頻的 DPO 方法, Video-DPO,以減少瑕疵並提高生成的影片視覺質量。評估了 Step-Video-T2V 的表現並提出未來影片基礎模型的方向。
+ 這份報告突顯了文本轉影片技術的最新發展,讓影片生成更具創意和效率。
+ 看完報告後,對於影片生成技術的未來前景有更清晰的認識和期待。
#影片基礎模型 #AI技術 #技術進步
Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model

We present Step-Video-T2V, a state-of-the-art text-to-video pre-trained model with 30B parameters and the ability to generate videos up to 204 frames in length. A deep compression Variational Autoencoder, Video-VAE, is designed for video generation tasks, achieving 16x16 spatial and 8x temporal compression ratios, while maintaining exceptional video reconstruction quality. User prompts are encoded using two bilingual text encoders to handle both English and Chinese. A DiT with 3D full attention is trained using Flow Matching and is employed to denoise input noise into latent frames. A video-based DPO approach, Video-DPO, is applied to reduce artifacts and improve the visual quality of the generated videos. We also detail our training strategies and share key observations and insights. Step-Video-T2V's performance is evaluated on a novel video generation benchmark, Step-Video-T2V-Eval, demonstrating its state-of-the-art text-to-video quality when compared with both open-source and commercial engines. Additionally, we discuss the limitations of current diffusion-based model paradigm and outline future directions for video foundation models. We make both Step-Video-T2V and Step-Video-T2V-Eval available at https://github.com/stepfun-ai/Step-Video-T2V. The online version can be accessed from https://yuewen.cn/videos as well. Our goal is to accelerate the innovation of video foundation models and empower video content creators.

arXiv.org

A Craving for Calculation – Creatures of Thought

Link📌 Summary:
在1965年,德州儀器總裁帕特里克·哈基提(Patrick Haggerty)預見電子產品未來會變得無處不在,他提出發展一種便攜式計算機的構想,並與整合電路的先驅吉克·基爾比(Jack Kilby)合作。隨著科技進步,到1972年,口袋計算機開始大量生產,並成為普及商品,不僅促進了半導體價格的降低,還引導了首批商業微處理器的誕生,為個人電腦的出現奠定了商業基礎。計算機迅速普及,從商業工具變成家庭用品,並引發了廣泛的文化討論。

🎯 Key Points:
- 哈基提的設想是製造一種不超過100美元的口袋計算機,並與吉克·基爾比合作研發原型機。
- 1966年,開發的“Cal Tech”原型機超過三磅重,但含有四個半寸的整合電路。
- 1972年,技術突破使計算機面世,隨後成為消費品。
- 計算機市場的崛起也促進了首批微處理器的開發,將計算功能整合到單一芯片上。
- 計算機的迅速普及影響了社會文化,與個人電腦的普及過程類似,但並未出現激進的市場創新者。

🔖 Keywords:
#口袋計算機 #整合電路 #技術進步 #微處理器 #市場普及

A Craving for Calculation

In 1965, Patrick Haggerty, president of Texas Instruments (TI), wanted to make a new bet on the future of electronics. In that future, he believed, in a theme he frequently expounded, the use of el…

Creatures of Thought
🌕 介紹穩定視頻3D:從單張圖像進行優質新視角合成和3D生成
➤ 3D生成和新視角合成的重要進展
https://stability.ai/news/introducing-stable-video-3d
今天我們發布了穩定視頻3D(SV3D),這是一種基於穩定視頻擴散的生成模型,推進了3D技術領域,提供了大幅提升的品質和視角一致性。這次發布包含兩種變體:SV3D_u和SV3D_p。 SV3D_u基於單張圖像生成軌道視頻,而無需攝像機條件。 SV3D_p擴展了功能,既支持單張圖像,又支持軌道視角,可以沿指定攝像機路徑創建3D視頻。
+ 這篇文章專業詳實,解釋了3D技術的最新進展,很值得深入瞭解。
+ 看完這篇文章,對於穩定視頻3D的功能和應用有更清楚的認識,很有助於科技領域的進步。
#技術進步
Introducing Stable Video 3D: Quality Novel View Synthesis and 3D Generation from Single Images — Stability AI

When we released Stable Video Diffusion, we highlighted the versatility of our video model across various applications. Building upon this foundation, we are excited to release Stable Video 3D. This new model advances the field of 3D technology, delivering greatly improved quality and multi-view whe

Stability AI
🌘 人工智慧的演進與阿瑪拉定律
➤ 人工智慧的快速演進與應用
https://n9o.xyz/posts/202401-evolution-ai/
近年來人工智慧的影響力不容忽視,尤其在過去一年裡,技術的進步與應用發展迅速,各大科技公司積極參與並推動著人工智慧的創新應用。從OpenAI與微軟的合作、Nvidia在硬體供應方面的角色,到Google、亞馬遜、Meta等公司在人工智慧領域的進展,以及開源人工智慧模型如Hugging Face及各種AI技術應用在創意產業與創業公司上的影響,顯示了人工智慧領域的蓬勃發展和巨大潛力。
+ 這篇文章對於人工智慧的發展趨勢有相當深入的探討,讓人對未來的科技發展有更清晰的瞭解。
+ 人工智慧的應用領域廣泛,對於科技和商業都有著深遠的影響,這篇文章充分呈現了這個趨勢。
#人工智慧 #科技 #技術進步
Evolution of AI and Amara's Law

We tend to overestimate the effect of a technology in the short run and underestimate the effect in the long run.

🌗 自駕車作為AGI的案例研究
➤ 自駕車技術的發展成為了探討人工通用智能(AGI)的一個重要案例研究,同時也揭示了自駕車技術對於自動化工作以及社會的影響。
https://karpathy.github.io/2024/01/21/selfdriving-agi/
本文探討自駕車如何成為人工通用智能(AGI)的一個重要案例研究,並解釋了自駕車技術的演進對於自動化工作以及社會動態的影響。
+ 這篇文章清晰地解釋了自駕車技術如何成為AGI的重要案例,使人更好地理解這個話題。
+ 這篇文章很好地闡述了自駕車技術對於自動化工作和社會的意義,讓人對於AGI的概念有了更深入的理解。
#人工智能 #自駕車 #技術進步
Self-driving as a case study for AGI

Musings of a Computer Scientist.

🌗 機器學習在機器學習中的進展
➤ 機器學習的發展與應用
https://blog.research.google/2023/12/advancements-in-machine-learning-for.html
近期,機器學習領域出現了許多加速進展,讓機器能夠理解自然語言、進行對話、繪製圖像、創建視頻等。這些進展不僅提供了高階指令給機器學習實踐者,還提出了新的技術與方法,旨在通過機器學習來提高機器學習模型的效率。
+ 這篇文章對於機器學習的新進展有很清晰的介紹,讓人對這個領域的發展有了更深入的瞭解。
+ 精簡的總結很明確地表達了文章的主旨,對於時間緊迫的讀者來說非常有幫助。
#機器學習 #技術進步
Advancements in machine learning for machine learning

🌗 人工智慧浩劫現世
➤ 人工智慧的技術進步帶來了無法忽視的影響
https://medium.com/@matt_11659/ai-pocalypse-now-c04de8d0f435
近三個半月中,人工智慧的進步令人震撼。透過大量訓練數據,AI模型的表現大幅提升,甚至能以高度真實性和說服力完成多種任務,包括圖像、聲音和視訊等。這意味著AI將徹底改變許多工作領域,甚至可能對隱私產生深遠影響。
+ 人工智慧的進步速度令人驚嘆,不過這也帶來了許多潛在問題和挑戰。
+ 這篇文章清楚地指出了人工智慧技術的最新進展,讓人感到十分驚訝。
#人工智慧 #技術進步