🌕 擴散模型簡明解說
➤ 探索AI圖像生成的另一種途徑
https://www.seangoedecke.com/diffusion-models-explained/
本文深入淺出地解釋了擴散模型的原理,與基於Transformer的大型語言模型進行比較。擴散模型透過逐步去除噪點來生成圖像或其他數據,其訓練過程涉及識別並預測添加到圖像上的噪點。文章詳細闡述了訓練和推理的過程,以及變分自動編碼器(VAE)和無分類器引導等關鍵技術。此外,文章也探討了擴散模型與Transformer模型在運作方式上的根本差異,並分享了對擴散模型成功背後潛在機制的猜測,以及擴散模型在影片生成上的應用。
+ 這篇文章用非常清楚的方式解釋了擴散模型,讓我對AI圖像生成技術有了更深入的瞭解。
+ 雖然文章解釋得很詳細,但擴散模型的底層機制還是有些難以理解,希望未來能有更簡單易懂的解釋。
#人工智慧 #機器學習 #擴散模型 #AI技術
Diffusion models explained simply

Transformer-based large language models are relatively easy to understand. You break language down into a finite set of “tokens” (words or sub-word components…

🌘 從零打造大型語言模型第13章:注意力機制的「為什麼」,或者說注意力頭其實很笨
➤ 揭密Transformer疊加架構的智能生成原理
https://www.gilesthomas.com/2025/05/llm-from-scratch-13-taking-stock-part-1-attention-heads-are-dumb
本文探討Transformer架構中注意力機制的核心原理,指出單一注意力頭功能有限,但透過多頭機制與多層疊加,能逐步建立複雜語境表徵。相較傳統RNN的固定長度瓶頸,多層注意力架構可動態擴充語境資訊量,突破模型容量限制。
+ 原來多層注意力是這樣突破RNN瓶頸的,作者用CNN圖像識別做類比相當精闢!
+ 但96層架構的參數數量不會爆炸性成長嗎?文中好像沒提到計算成本問題。
#AI技術
Writing an LLM from scratch, part 13 -- the 'why' of attention, or: attention heads are dumb

A pause to take stock: realising that attention heads are simpler than I thought explained why we do the calculations we do.

Giles' Blog
“友人”だと思い…8500万円振り込み→AI技術で友人になりすました詐欺 中国で発生「AI詐欺」|TBS NEWS DIG - エミリーと学ぶ生成AIの世界

「“友人”だと思い…8500万円振り込み→AI技術で友人になりすました詐欺 中国で発生「AI詐欺」|…

エミリーと学ぶ生成AIの世界
🌗 無大象:圖像生成領域的突破
➤ AI圖像生成邁入新紀元:從文字指令到視覺創造
https://www.oneusefulthing.org/p/no-elephants-breakthroughs-in-image
本文探討了大型語言模型(LLM)在圖像生成方面的最新突破。以往AI生成圖像需要藉助外部工具,如今則能直接控制圖像的生成過程,並能根據指示進行修改和完善。這種多模態圖像生成技術的出現,不僅提升了圖像品質,更開啟了AI在圖像處理和創意設計上的廣闊應用前景,但也引發了對藝術創作、版權和倫理等方面的討論。
+ 真是太神奇了!以前想生成一張符合特定要求的圖,經常要花很多時間和精力,現在AI就能輕鬆搞定,簡直是創意工作者的福音!
+ 雖然AI生成圖很方便,但還是有些地方不太完美,而且對藝術家的影響也需要好好考慮。這種技術的發展,確實帶來了許多新的問題。
#人工智慧 #圖像生成 #AI技術
No elephants: Breakthroughs in image generation

When Language Models Learn to See and Create

One Useful Thing
🌘 GitHub - xataio/agent:專精於 PostgreSQL 的 AI 代理
➤ 專業的 PostgreSQL 監控與分析工具
https://github.com/xataio/agent
Xata Agent 是一個開源的人工智能代理,專門用於監控 PostgreSQL 數據庫,找出問題根源並提供修復與改善建議,類似於新聘的 SRE 擔任者。該代理可以監控日誌與指標,主動建議配置調優,排除性能問題,協助解決常見問題,並支持 Slack 通知。用戶通過 Docker 安裝並設置代理。
+ 這個 AI 代理聽起來非常有用!能否說明一下它的具體安裝步驟?
+ 覺得 Xata Agent 的功能真是不錯,不過對於初學者來說會不會太難操作?
#AI技術
GitHub - xataio/agent: AI agent expert in PostgreSQL

AI agent expert in PostgreSQL. Contribute to xataio/agent development by creating an account on GitHub.

GitHub
🌘 GitHub - wild-card-ai/agents-json
➤ 更易於AI代理和API互動的開放規範
https://github.com/wild-card-ai/agents-json
agents.json 規範為API和代理互動提供了一個正式的開放規範,建立在OpenAPI標準之上,目的是改善AI代理與APIs的互動效率。此版本為0.1.0,設計理念是降低API調用的複雜性,使使用大型語言模型(LLMs)整合API更加簡便。
+ 這個規範似乎能顯著簡化我開發AI項目的流程。
+ 我很期待看到許多API朝這個方向進行改善。
#AI技術
GitHub - wild-card-ai/agents-json

Contribute to wild-card-ai/agents-json development by creating an account on GitHub.

GitHub
🌗 ForeverVM:無會話的程式碼解譯器
➤ 在永不過期的沙盒中安全執行程式碼
https://forevervm.com/
ForeverVM是一個無會話的程式碼執行API,允許用戶在安全的沙盒環境中執行Python程式碼。與傳統解譯器不同,ForeverVM不會因會話結束而失去狀態,而是透過記憶體快照來保留實例,進而增強可擴展性和資源使用效率。用戶可以透過REPL介面與ForeverVM互動,並隨時恢復之前的執行狀態。
+ 這個技術聽起來很酷,可以極大地提高開發效率!
+ 期待能在我的專案中使用ForeverVM,真的很有潛力。
#AI技術
ForeverVM: The sessionless code interpreter

The sessionless code interpreter

🌘 AI CUDA工程師:主動式CUDA核心發現、優化和組合
➤ The AI CUDA Engineer:自動化CUDA核心發現和優化
https://sakana.ai/ai-cuda-engineer/
在Sakana AI,他們相信透過使用人工智慧來自動化開發AI的途徑可以發展更強大的AI系統,並提出了全面的主動式框架The AI CUDA Engineer,用於完全自動化CUDA核心的發現和優化,大幅提高AI算法的運行速度。
+ 這項技術的應用將大幅提高人工智慧系統的運行效率,對未來的AI發展有莫大的推動作用。
+ 這項技術的突破將加速AI模型的部署和應用,為人工智慧領域帶來更廣泛的影響力。
#人工智慧 #CUDA #AI技術 #深度學習
Sakana AI

The AI CUDA Engineer: Agentic CUDA Kernel Discovery, Optimization and Composition

🌘 [2502.10248] Step-Video-T2V 技術報告: 影片基礎模型的實踐、挑戰和未來
➤ 提升影片生成質量與未來發展方向
https://arxiv.org/abs/2502.10248
這份報告介紹了 Step-Video-T2V,一款擁有 30B 參數的最先進文本轉影片預訓練模型,能生成長達 204 幀的影片。使用深度壓縮變分自編碼器進行視頻生成任務,實現 16x16 空間和 8x 時間壓縮比,同時保持出色的影片重建質量。使用兩個雙語文本編碼器對用戶提示進行編碼,處理英文和中文。訓練了具有 3D 全局關注的 DiT,並使用 Flow Matching 將噪聲轉換為潛在幀。應用基於視頻的 DPO 方法, Video-DPO,以減少瑕疵並提高生成的影片視覺質量。評估了 Step-Video-T2V 的表現並提出未來影片基礎模型的方向。
+ 這份報告突顯了文本轉影片技術的最新發展,讓影片生成更具創意和效率。
+ 看完報告後,對於影片生成技術的未來前景有更清晰的認識和期待。
#影片基礎模型 #AI技術 #技術進步
Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model

We present Step-Video-T2V, a state-of-the-art text-to-video pre-trained model with 30B parameters and the ability to generate videos up to 204 frames in length. A deep compression Variational Autoencoder, Video-VAE, is designed for video generation tasks, achieving 16x16 spatial and 8x temporal compression ratios, while maintaining exceptional video reconstruction quality. User prompts are encoded using two bilingual text encoders to handle both English and Chinese. A DiT with 3D full attention is trained using Flow Matching and is employed to denoise input noise into latent frames. A video-based DPO approach, Video-DPO, is applied to reduce artifacts and improve the visual quality of the generated videos. We also detail our training strategies and share key observations and insights. Step-Video-T2V's performance is evaluated on a novel video generation benchmark, Step-Video-T2V-Eval, demonstrating its state-of-the-art text-to-video quality when compared with both open-source and commercial engines. Additionally, we discuss the limitations of current diffusion-based model paradigm and outline future directions for video foundation models. We make both Step-Video-T2V and Step-Video-T2V-Eval available at https://github.com/stepfun-ai/Step-Video-T2V. The online version can be accessed from https://yuewen.cn/videos as well. Our goal is to accelerate the innovation of video foundation models and empower video content creators.

arXiv.org

不怕塞車「AI智慧高速公路」問世!過年彰化國道交通紫爆解方曝 | 城市學

Link📌 Summary: 文章探討了在春節長假期間,臺灣國道交通嚴重壅塞的原因,並分析「龜速車」及「三寶」對於交通流量的影響。雖然龜速車被認為是塞車的元兇之一,但實際上交通擁堵更是由於車輛密度所致。文章最後提及 Google 支持的 Cavnue 公司正在建設的智慧高速公路,利用 AI 技術以預防和減少交通擁堵,未來有望提升園區交通的整體效率。

🎯 Key Points:
- 2025 年春節假期,國道交通出現嚴重擁堵,初三至初四期間車速降至時速 14 公里。
- 龜速車和三寶被視為交通擁堵的重要因素,但結果顯示擁堵的最主要原因是車輛密度高。
- 政府對交通擁堵的可能解決方案包括限制車輛流入及調整速限以便於疏導交通。
- Cavnue 公司正在建設的智慧高速公路預計利用 AI 技術,旨在改善交通流量並提供即時預警系統。
- 此項技術結合感測器和影像監控,提升交通安全效率,未來預期將有更多自動化汽車使用此係統。

🔖 Keywords: #交通 #智慧高速公路 #AI技術 #龜速車 #交通擁堵

不怕塞車「AI智慧高速公路」問世!過年彰化國道交通紫爆解方曝

2025年春節九天連假期間,全台各地湧現返鄉與出遊人潮,導致國道多處出現交通嚴重壅塞的情形,特別是初三(1月31日)至初四午夜(2月1日),車速一度降至時速14公里,呈現嚴重塞車的「紫爆」低速。對此,許多網友紛紛熱議,盼能揪出塞車背後的真正原因。儘管多數人認為「龜速車」是交通大打結的主要元凶,可交通部《交通安全入口網》分析後卻顯示,問題涉及「龜速車」「三寶」等因素,實際情況可能更為複雜。好在隨著國際人工智慧科技迅速發展,Google旗下Cavnue公司正與美國建造首條結合AI技術的「智慧高速公路」,為各國交通堵塞窘境帶來一線智能曙光。

城市學