🌘 PyTorch 使用 None 進行重塑
➤ 遮罩技巧與 PyTorch 重塑的應用
https://blog.detorch.xyz/post/2025-06-21-pytorch-reshaping-with-none.md
這篇文章探討了在 PyTorch 中使用 `None` 進行張量重塑的方法,尤其是在處理可變長度序列資料時,例如自然語言處理。作者解釋瞭如何利用廣播機制 (broadcast mechanism) 建立遮罩 (mask),以忽略填充的無效 token,並提供了使用 `reshape` 函數作為替代方案,以提高程式碼的可讀性。
+ 這篇文章清楚地解釋了 PyTorch 中 `None` 的用法,對於初學者來說很有幫助。
+ 我一直對廣播機制感到困惑,這篇文章提供了一個很好的實際例子,讓我更容易理解。
#程式設計 #PyTorch #深度學習 #序列處理
Pytorch Reshaping With None

🌖 尤根·施密德胡伯:未獲圖靈獎的生成式AI之父
➤ 揭開AI歷史的迷霧,探尋被遺忘的先驅者
http://www.jazzyear.com/article_info.html?id=1352
本文介紹了人工智能領域的先驅人物尤根·施密德胡伯教授,他於1997年與學生共同發表了長短期記憶網絡(LSTM)的架構和訓練算法,該技術被廣泛應用於蘋果Siri和谷歌翻譯等應用中。儘管他的研究成果對現代人工智能的發展產生了深遠影響,甚至奠定了ChatGPT等生成式AI的基礎,但他卻未獲得圖靈獎,引發了業界的討論。施密德胡伯教授強調科學誠信,批評一些研究人員未正確引用前人的工作,並闡述了人工智能發展的歷史淵源及未來展望。
+ 讀完這篇文章,我對AI的發展歷史有了更深入的瞭解,也對那些被忽略的先驅者感到惋惜。
+ 施密德胡伯教授的坦率和對科學誠信的堅持令人敬佩,這篇文章提醒我們在追逐科技進步的同時,不能忘記歷史和尊重前人的貢獻。
#人工智慧 #科技 #歷史 #深度學習
Jürgen Schmidhuber:The Father of Generative AI Without Turing Award

甲子光年作为中国科技产业智库,为服务决策而生,帮助决策者掌握科技风向,致力于推动中国科技产业化、产业科技化进程。

🌖 GitHub - nirw4nna/dsc:機器學習的張量庫與推理框架
➤ 強大的機器學習框架,兼顧效能與便利性
https://github.com/nirw4nna/dsc
nirw4nna/dsc 是一個與 PyTorch 兼容的張量庫和機器學習模型推理框架。它提供了一個現代化的 Python API,類似於 NumPy / PyTorch,並具有直觀的介面、內建的神經網路支援,以及 CPU 和 CUDA 的多重後端。DSC 旨在提供高效能、可移植性,且減少對外部依賴性,並具有自定義記憶體分配器。使用者可以輕鬆地從 PyTorch 移植模型,並且可以通過簡單的指令在不同的後端之間切換。
+ 這個框架看起來很有潛力,尤其是在需要高效能計算的場景下。
+ 從 PyTorch 移植模型似乎很方便,這對現有 PyTorch 使用者來說是一個很大的優點。
#機器學習 #深度學習 #程式庫
GitHub - nirw4nna/dsc: Tensor library & inference framework for machine learning

Tensor library & inference framework for machine learning - nirw4nna/dsc

GitHub
🌘 Q學習尚未能擴展規模
➤ 強化學習的規模化挑戰與Q學習的瓶頸
https://seohong.me/blog/q-learning-is-not-yet-scalable/
本文探討了強化學習(RL)的可擴展性問題。儘管RL在遊戲和大型語言模型領域取得了顯著進展,但大多數成功案例都依賴於“當前策略”的演算法,這些演算法需要持續收集新數據。相比之下,“離線策略”的Q學習理論上能利用任何數據,更具樣本效率。然而,作者認為目前的Q學習演算法難以擴展至需要大量決策步驟的複雜長期任務,主要原因是目標預測的偏差會隨著時間累積,導致效能受限。透過實驗研究佐證了此觀點,並呼籲相關研究突破,以提升Q學習在更廣泛應用場景下的可擴展性。
+ 這篇文章點出了強化學習發展的一個重要問題,也讓我對目前流行的RL演算法有更深入的理解。
+ 作者的分析很有見地,也讓我開始思考如何改進Q學習,使其能夠更好地處理複雜的現實世界問題。
#人工智能 #強化學習 #Q學習 #深度學習
Q-learning is not yet scalable

🌗 看看吧,沒有氣泡了!為 Llama-1B 設計低延遲巨核心
➤ 透過巨核心架構,大幅提升大型語言模型的效能與反應速度。
https://hazyresearch.stanford.edu/blog/2025-05-27-no-bubbles
Hazy Research 團隊深入研究了在現代 GPU 上執行開源大型語言模型(LLM)的速度極限。他們發現,現有的 LLM 推理引擎(如 vLLM 和 SGLang)在執行 Llama-1B 時,僅能利用 GPU 頻寬的 50%。問題根源在於現有系統將模型前向傳播分解為數百個獨立的核心,導致頻繁的啟動和拆卸延遲,並阻礙了模型權重的持續加載。為了克服這一問題,研究團隊設計了一個「巨核心」(megakernel),將整個 Llama-1B 的前向傳播合併為單一核心,消除了核心邊界。結果顯示,該巨核心在 H100 上使用了 78% 的記憶體頻寬,效能提升了 1.5 倍以上,實現了目前已知的 Llama-1B 在 bfloat16 格式下的最低延遲前向傳播。
+ 這篇文章深入探討了 LLM 推理
#人工智慧 #深度學習 #GPU #效能優化
Look Ma, No Bubbles! Designing a Low-Latency Megakernel for Llama-1B

🌖 在 WebGL 中運行 GPT-2:重拾 GPU Shader 程式設計的失落藝術
➤ 利用著色器在 WebGL 中實現高效的深度學習
https://nathan.rs/posts/gpu-shader-programming/
本文探討了作者使用 WebGL 和著色器 (shaders) 實現 GPT-2 模型的過程,並回顧了 GPU 程式設計的發展歷程。從早期的可程式化著色器到 CUDA 和 OpenCL 的出現,再到利用紋理和緩衝區 (framebuffers) 作為資料匯流排,以及將片段著色器 (fragment shaders) 轉化為計算核心,作者詳細闡述瞭如何在 GPU 上進行通用計算,並克服了傳統圖形 API 的限制。最終,作者成功地在 GPU 上運行了 GPT-2 模型,展示了 WebGL 在深度學習領域的潛力。
+ 這篇文章深入淺出地解釋了 GPU 程式設計的核心概念,對於想了解深度學習加速的人來說,非常有價值。
+ 令人驚訝的是,WebGL 竟然也能實現如此複雜的深度學習模型,作者的技術能力
#GPU 程式設計 #WebGL #深度學習 #GPT-2
Running GPT-2 in WebGL: Rediscovering the Lost Art of GPU Shader Programming - nathan.rs

Nathan Barry's Personal Website

🌕 深度學習是應用拓撲學
➤ 神經網路:拓撲結構的生成器
https://theahura.substack.com/p/deep-learning-is-applied-topology
本文探討了深度學習與拓撲學的深刻關聯。作者指出,深度學習的本質在於對數據空間的變形與操作,這與拓撲學研究表面的彎曲、扭曲和拉伸的原理不謀而合。透過層層線性代數運算,神經網路實際上是在建立一個高維度的「流形」,將數據分離並揭示其內在結構。即使在低維度難以分離的數據,在高維度空間中也能找到解決方案。作者認為,深度學習模型可以被視為拓撲生成器,其學習過程即是在尋找最能反映數據語義的拓撲結構,並將其與人類推理能力聯繫起來。
+ 這篇文章讓我對深度學習的底層邏輯有了更深的理解,原來背後還有如此精妙的數學原理!
+ 我一直覺得神經網路像一個黑盒子,但這篇文章讓我看到了它解碼數據的方式,真的很令人著迷。
#人工智慧 #深度學習 #拓撲學 #數據科學
Deep Learning is Applied Topology

Everything lives on a manifold

12 Grams of Carbon
🌗 ACE-Step:邁向音樂生成基礎模型的腳步
➤ 融合擴散模型與深度學習,打造音樂 AI 的新世代
https://github.com/ace-step/ACE-Step
ACE-Step 是一個新穎的開源音樂生成基礎模型,它結合了擴散模型、Sana 的深度壓縮自動編碼器 (DCAE) 和輕量級線性變換器,旨在克服現有方法在生成速度、音樂連貫性和可控性之間的權衡。它利用 MERT 和 m-hubert 對齊語義表示,並在 A100 GPU 上僅需 20 秒即可合成長達 4 分鐘的音樂,速度是基於 LLM 的方法的 15 倍,同時在旋律、和聲和節奏方面實現了卓越的音樂連貫性和歌詞對齊。ACE-Step 支援多種語言和樂器風格,並提供歌詞編輯、風格變化等控制功能,目標是成為音樂 AI 領域的「Stable Diffusion」時刻。
+ 哇,這個模型速度真的很快!想像一下如果能用它快速產生音樂原型,對音樂創作簡直是革命性的改變。
+ 支援多語言功能太棒了!希望未來能看到更多語言的優化,讓更多人可以使用這個工具。
#人工智慧 #音樂生成 #深度學習
GitHub - ace-step/ACE-Step: ACE-Step: A Step Towards Music Generation Foundation Model

ACE-Step: A Step Towards Music Generation Foundation Model - ace-step/ACE-Step

GitHub
🌖 ViT 與 CNN 速度探討
➤ 顛覆認知:ViT 的解析度優勢與實際應用
https://lucasb.eyer.be/articles/vit_cnn_speed.html
本文探討了視覺變換器 (ViT) 和卷積神經網路 (CNN) 在不同解析度下的效能表現。作者透過在多種 GPU 上進行基準測試,發現 ViT 在高解析度(至少 1024x1024 像素)下並未像過去認為的那麼不切實際,甚至在某些情況下比 CNN 更快、更省記憶體。此外,文章強調了過度關註解析度是不必要的,對於大多數常見的圖像類型,較低的解析度即可滿足需求,並探討了模型容量與解析度對效能影響的關係。
+ 這篇文章讓我對 ViT 有了新的認識,原來它在高解析度下的表現比我想的要好很多,而且效率還不錯!
+ 作者的觀點很有啟發性,提醒我們不要過度追求高解析度,應該根據實際需求選擇合適的解析度,這對於節省計算資源非常有幫助。
#電腦視覺 #深度學習 #ViT #CNN #效能分析
On the speed of ViTs and CNNs

foo

🌗 機械乒乓:實現人類水平的競技機器人乒乓球
➤ 機器人乒乓球:從模擬到實戰的突破
https://sites.google.com/view/competitive-robot-table-tennis/home?pli=1
Google DeepMind 團隊發表了一項研究成果,展示了首個在競技乒乓球中達到業餘人類水平的學習型機器人。此機器人採用分層式策略架構,結合了低階技能控制器和高階決策控制器,並通過模擬到真實世界的零次遷移技術,以及實時適應未知對手的能力,在與 29 名人類選手的比賽中勝率達到 45%。研究證明,該機器人不僅在競技水平上具有潛力,還能提供令人愉悅的遊戲體驗。
+ 令人驚訝!機器人竟然能打到這個程度,未來機器人在體育領域的發展充滿想像空間。
+ 這項技術不僅僅是關於乒乓球,更重要的是它展示了機器人在複雜、動態環境中學習和適應的能力。
#機器人 #人工智能 #乒乓球 #競技 #深度學習
Home

Achieving human-level speed and performance on real world tasks is a north star for the robotics research community. This work takes a step towards that goal and presents the first learned robot agent that reaches amateur human-level performance in competitive table tennis. Table tennis is a