🌗 AllTracker:高效高解析度密集點追蹤
➤ 突破高解析度密集點追蹤的技術瓶頸
https://alltracker.github.io/
這篇論文介紹了 AllTracker,一種能有效率地進行高解析度密集點追蹤的模型。AllTracker 通過估計查詢幀與視頻中其他所有幀之間的流場來實現長距離點追蹤。相較於現有方法,它能提供高解析度且全像素對應關係,並且在處理速度和準確性上都表現出色,即便在較高的解析度下(例如 768x1024 像素)也能有效運行。研究人員強調了訓練數據集的多樣性對模型性能的重要性,並提供了詳細的消融研究和程式碼。
+ 這個模型在影片分析和機器視覺領域有很大的應用潛力,尤其是在需要精準追蹤的場景中。
+ 很高興看到研究人員公開了程式碼和模型權重,這將有助於推動相關領域的進一步發展。
#人工智慧 #電腦視覺 #影像處理
AllTracker: Efficient Dense Point Tracking at High Resolution

🌘 打造「眼視」網站:在家自製 Apple Vision Pro 的體驗
➤ 以平價方式實現未來科技體驗
https://blog.andykhau.com/blog/eyesite
Andy Khau 由於預算有限,無法購買昂貴的 Apple Vision Pro,因此決定在家中自行開發一個結合電腦視覺與網頁設計的專案「Eyesite」。這個網站利用眼球追蹤技術,讓使用者只需透過視線即可與網頁互動,無需滑鼠。他採用 WebGazer.js 函式庫進行眼球追蹤,透過校準過程建立視線與螢幕座標的對應關係。為了提升使用者體驗,他隱藏了螢幕上的指標,並將滑鼠也隱藏,讓使用者彷彿直接用眼睛控制網站。此外,為了彌補眼球追蹤精準度的不足,他還將網頁介面設計得更大,並限制了螢幕尺寸。
+ 這個專案太酷了!用眼睛操控網頁真的很有未來感,而且作者還分享了原始碼,讓人很有參與感。
+ 雖然眼球追蹤的精準度可能還有進步空間,但這個概念已經非常棒了,而且作者的解決方案也很巧妙。
#科技 #網頁設計 #電腦視覺 #眼球追蹤
Making eyesite

Development journal of eyesite.

🌖 當記憶以千位元組衡量:高效視覺的藝術
➤ 早期電腦視覺的智慧結晶:在有限資源下追求圖像處理的極致效率
https://www.softwareheritage.org/2025/06/04/history_computer_vision/
本文回顧了早期電腦視覺時代,記憶體資源稀缺時期的創新精神。以 Inria 在 1980 年代末開發的「高效鏈接演算法」為例,展示瞭如何在有限的條件下實現優雅且高效的圖像處理。這段 C 語言程式碼已被 Software Heritage 保存,不僅是研究歷史的一部分,也體現了早期電腦科學家們面對挑戰的智慧。文章還探討了 Inria 軟體遺產保存計畫,以及該演算法在記憶體管理和效率方面的獨到之處。
+ 令人驚嘆!在資源如此受限的年代,科學家們竟然能開發出如此精巧的演算法,實在太有智慧了。
+ 這篇文章讓我重新認識了電腦視覺的發展歷程,也體會到軟體保存的重要性,這些歷史遺產值得我們珍惜。
#科技歷史 #電腦視覺 #軟體保存
When memory was measured in kilobytes: The art of efficient vision - Software Heritage

Back when RAM was precious, clever code reigned. Take a peek into early computer vision's elegant solutions.

Software Heritage
🌖 GitHub - collidingScopes/3d-model-playground:即時手勢與語音操控 3D 模型
➤ 透過手勢與語音,解放3D模型互動的全新方式
https://github.com/collidingScopes/3d-model-playground
這個GitHub專案「3d-model-playground」是一個互動式網頁應用程式,它利用Three.js、MediaPipe電腦視覺、Web Speech API和Rosebud AI等技術,讓使用者能夠透過手勢和語音指令即時操控3D模型。使用者可以說出「拖曳」、「旋轉」、「縮放」或「動畫」等指令來切換互動模式,也可以直接拖放GLTF格式的3D模型到頁面進行導入。
+ 哇,這個專案太酷了!能用手勢控制3D模型,感覺就像在電影裡面一樣!
+ 這個專案對於學習Three.js和MediaPipe很有幫助,可以實際看到這些技術如何應用在互動式應用程式中。
#開源專案 #電腦視覺 #3D模型
GitHub - collidingScopes/3d-model-playground: Control 3D models using hand gestures and voice commands in real-time. Threejs / mediapipe computer vision

Control 3D models using hand gestures and voice commands in real-time. Threejs / mediapipe computer vision - collidingScopes/3d-model-playground

GitHub
🌖 YOLO-World:即時開詞彙物件偵測
➤ 突破物件偵測的詞彙限制,實現更廣泛的應用
https://arxiv.org/abs/2401.17270
本文介紹了YOLO-World,一種透過視覺語言模型和大規模資料集預訓練,增強YOLO偵測器開詞彙偵測能力的新方法。YOLO-World 透過新穎的 RepVL-PAN 網路架構和區域-文本對比損失函數來促進視覺和語言資訊的互動,在零樣本學習的環境下,能有效偵測廣泛的物件。實驗結果顯示,YOLO-World 在LVIS 資料集上表現出色,在速度和準確度上均優於現有方法,並在下游任務如物件偵測和開詞彙實例分割中展現出卓越的效能。
+ 聽起來很有潛力,能在不需要重新訓練的情況下偵測到新的物件,這對於實際應用非常重要。
+ 速度和準確度都提升了,而且提供了程式碼和模型,這對於研究人員來說很有幫助!
#電腦視覺 #人工智慧 #物件偵測
YOLO-World: Real-Time Open-Vocabulary Object Detection

The You Only Look Once (YOLO) series of detectors have established themselves as efficient and practical tools. However, their reliance on predefined and trained object categories limits their applicability in open scenarios. Addressing this limitation, we introduce YOLO-World, an innovative approach that enhances YOLO with open-vocabulary detection capabilities through vision-language modeling and pre-training on large-scale datasets. Specifically, we propose a new Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN) and region-text contrastive loss to facilitate the interaction between visual and linguistic information. Our method excels in detecting a wide range of objects in a zero-shot manner with high efficiency. On the challenging LVIS dataset, YOLO-World achieves 35.4 AP with 52.0 FPS on V100, which outperforms many state-of-the-art methods in terms of both accuracy and speed. Furthermore, the fine-tuned YOLO-World achieves remarkable performance on several downstream tasks, including object detection and open-vocabulary instance segmentation.

arXiv.org
🌖 ViT 與 CNN 速度探討
➤ 顛覆認知:ViT 的解析度優勢與實際應用
https://lucasb.eyer.be/articles/vit_cnn_speed.html
本文探討了視覺變換器 (ViT) 和卷積神經網路 (CNN) 在不同解析度下的效能表現。作者透過在多種 GPU 上進行基準測試,發現 ViT 在高解析度(至少 1024x1024 像素)下並未像過去認為的那麼不切實際,甚至在某些情況下比 CNN 更快、更省記憶體。此外,文章強調了過度關註解析度是不必要的,對於大多數常見的圖像類型,較低的解析度即可滿足需求,並探討了模型容量與解析度對效能影響的關係。
+ 這篇文章讓我對 ViT 有了新的認識,原來它在高解析度下的表現比我想的要好很多,而且效率還不錯!
+ 作者的觀點很有啟發性,提醒我們不要過度追求高解析度,應該根據實際需求選擇合適的解析度,這對於節省計算資源非常有幫助。
#電腦視覺 #深度學習 #ViT #CNN #效能分析
On the speed of ViTs and CNNs

foo

🌖 視覺變換器需要暫存器
➤ 改善視覺變換器效能的關鍵突破
https://arxiv.org/abs/2309.16588
這篇論文探討了視覺變換器 (ViT) 網路中存在的缺陷,這些缺陷會導致在圖像的低資訊背景區域出現高範數的特徵標記。研究人員發現這些標記被重新用於內部計算,並提出了一種簡單有效的方法,透過向 ViT 輸入序列中新增額外的標記來解決此問題。實驗結果顯示,此方法不僅能消除該問題,還能提升自監督視覺模型的性能,促進物件偵測方法的發展,並改善下游視覺處理的特徵圖和注意力圖。
+ 這研究很有意思,以前沒想過視覺模型會出現這種「資源重新利用」的現象,而且透過簡單的額外標記就能有效改善,令人印象深刻。
+ 視覺變換器越來越普及,能看到研究人員持續優化其效能,對整個電腦視覺領域來說都是好消息。這個新增標記的方法,或許能成為一個標準的改進策略。
#電腦視覺 #人工智慧 #機器學習
Vision Transformers Need Registers

Transformers have recently emerged as a powerful tool for learning visual representations. In this paper, we identify and characterize artifacts in feature maps of both supervised and self-supervised ViT networks. The artifacts correspond to high-norm tokens appearing during inference primarily in low-informative background areas of images, that are repurposed for internal computations. We propose a simple yet effective solution based on providing additional tokens to the input sequence of the Vision Transformer to fill that role. We show that this solution fixes that problem entirely for both supervised and self-supervised models, sets a new state of the art for self-supervised visual models on dense visual prediction tasks, enables object discovery methods with larger models, and most importantly leads to smoother feature maps and attention maps for downstream visual processing.

arXiv.org
🌘 使用電腦視覺在OpenStreetMap中的地圖特徵
➤ OpenStreetMap AI助手藍圖提供了電腦視覺技術在地圖繪製中的應用。
https://blog.mozilla.ai/map-features-in-openstreetmap-with-computer-vision/
Mozilla.ai開發並發布了OpenStreetMap AI助手藍圖,希望透過AI技術增進人類協作的能力。這個藍圖分為三個階段,利用電腦視覺技術從OpenStreetMap中提取數據,以加速地圖繪製過程。
+ 這個藍圖結合了AI技術和人類協作,突顯了數據和電腦視覺在地圖繪製中的重要性。
+ 透過OpenStreetMap AI助手藍圖,地圖繪製的效率得到了顯著提升,同時保持了資料準確性。
#地圖特徵 #OpenStreetMap #電腦視覺 #AI
Map Features in OpenStreetMap with Computer Vision

Mozilla.ai developed and released the OpenStreetMap AI Helper Blueprint. If you love maps and are interested in training your own computer vision model, you’ll enjoy diving into this Blueprint.

Mozilla.ai
🌘 GS-Cache:大型高斯點陣模型的GS-Cache推理框架
➤ 提升虛擬現實渲染性能的創新框架
https://arxiv.org/abs/2502.14938
本文提出GS-Cache,這是一個針對大型3D高斯點陣模型的推理框架,旨在解決在消費級設備上實現即時高保真性能的挑戰。GS-Cache整合了3D高斯點陣的先進表示法與高度優化的渲染系統,通過去除冗餘計算和改進多GPU渲染效率,實現了5.35倍的性能提升和35%的延遲降低,支持高達120 FPS的2K雙眼渲染。
+ 這個新框架看起來非常有潛力,尤其是在虛擬現實領域!
+ 期待看到GS-Cache在實際應用中的效果,數據聽起來很驚人!
#電腦視覺
GS-Cache: A GS-Cache Inference Framework for Large-scale Gaussian Splatting Models

Rendering large-scale 3D Gaussian Splatting (3DGS) model faces significant challenges in achieving real-time, high-fidelity performance on consumer-grade devices. Fully realizing the potential of 3DGS in applications such as virtual reality (VR) requires addressing critical system-level challenges to support real-time, immersive experiences. We propose GS-Cache, an end-to-end framework that seamlessly integrates 3DGS's advanced representation with a highly optimized rendering system. GS-Cache introduces a cache-centric pipeline to eliminate redundant computations, an efficiency-aware scheduler for elastic multi-GPU rendering, and optimized CUDA kernels to overcome computational bottlenecks. This synergy between 3DGS and system design enables GS-Cache to achieve up to 5.35x performance improvement, 35% latency reduction, and 42% lower GPU memory usage, supporting 2K binocular rendering at over 120 FPS with high visual quality. By bridging the gap between 3DGS's representation power and the demands of VR systems, GS-Cache establishes a scalable and efficient framework for real-time neural rendering in immersive environments.

arXiv.org
🌘 雙線性下/上採樣、對齊像素網格及那個臭名昭著的 GPU 半像素偏移
➤ 理解雙線性過程中的混淆與挑戰
https://bartwronski.com/2021/02/15/bilinear-down-upsampling-pixel-grids-and-that-half-pixel-offset/
Bart Wronski 討論雙線性下/上採樣的概念,指出此過程在圖像處理中的重要性,以及在使用 GPU 時經常遇到的半像素偏移問題。他強調了雙線性過程中的常見混淆,並分析了兩種不同的下/上採樣技術如何影響圖像的質量。
+ 這篇文章提供了對雙線性過程的深入分析,讓我對圖像處理有了更好的理解。
+ 雖然內容有些技術性,但對於想要深入瞭解圖像處理的人來說非常有幫助!
#電腦視覺 #圖像處理
Bilinear down/upsampling, aligning pixel grids, and that infamous GPU half pixel offset

See this ugly pixel shift when upsampling a downsampled image? My post describes where it can come from and how to avoid those! It’s been more than two decades of me using bilinear texture filterin…

Bart Wronski