Удаляем фон и замазываем лица прямо в браузере: ONNX Runtime, MediaPipe и грабли Service Worker

TL;DR. Две нейросетевые задачи — удаление фона (ONNX Runtime Web + модель silueta) и замазывание лиц (MediaPipe Tasks Vision + BlazeFace) — запущены полностью на клиенте: ни один пиксель не уходит на сервер. Ниже — почему «в браузере», какие модели выбраны и почему, как тянуть 43-мегабайтную модель с прогресс-баром, почему лица лучше пикселизировать, чем размывать, и подробный разбор бага, на который я убил вечер: Service Worker, кэширующий .mjs / .wasm , ломает dynamic import() с ошибкой «Failed to fetch dynamically imported module».

https://habr.com/ru/articles/1042598/

#ONNX_Runtime #MediaPipe #WebAssembly #нейросети_в_браузере #удаление_фона #замазывание_лиц #Service_Worker #privacy #обработка_изображений_на_клиенте #dynamic_import

Удаляем фон и замазываем лица прямо в браузере: ONNX Runtime, MediaPipe и грабли Service Worker

TL;DR. Две нейросетевые задачи — удаление фона (ONNX Runtime Web + модель silueta) и замазывание лиц (MediaPipe Tasks Vision + BlazeFace) — запущены полностью на клиенте: ни один пиксель не уходит на...

Хабр

3D-кино с трекингом глаз: технический разбор моей реализации и открытые вопросы

В моей коллекции лежат фильмы в формате Top-Bottom стереопары. Без 3D-телевизора или VR-очков смотреть их без потерь нельзя. Поляризованные очки и активные затворы на десктопе работают плохо или дорого. Анаглифные красно-синие очки убивают цвет. Хотелось третьего варианта — смотреть на обычном мониторе, без очков, с минимальным железом. Идея, на которую опирался: head-coupled perspective, известный с 2008 года по знаменитому Wii-демо Johnny Chung Lee. В октябре 2025 бывший инженер Meta Daniel Habib опубликовал True3D — head-tracked Window Mode, где экран ведёт себя как окно в 3D-сцену. У них под капотом MediaPipe FaceLandmarker + iris tracking + off-axis projection matrix + volumetric scene на Gaussian splats. Я попробовал перенести подход на готовую Top-Bottom стереопару из коммерческих фильмов. И тут начались интересные компромиссы. В статье — технический разбор моей реализации: пайплайн сглаживания трекинга в четыре ступени (EMA + velocity buffer + jump threshold + adaptive scaling), predictive tracker на double exponential smoothing (метод Холта) для компенсации end-to-end лага в 65 ms, фрагментный шейдер на GLSL с view switching и blend zone через smoothstep, попытка извлечения disparity через OpenCV StereoSGBM. Подробное сравнение моего подхода и True3D с таблицей: где в их волюметрической архитектуре получается то, что у меня в принципе невыводимо из двух фиксированных 2D-видов. Финал — пять документированных проблем (jitter на резких движениях, ghosting в blend zone, потеря половины разрешения, латентность, UV-параллакс vs настоящий off-axis) и шесть открытых вопросов к читателю: про DepthAnything в WebGPU+ONNX, про RIFE/DAIN как view-интерполяторы, про DIBR на compute shader, про принципиальную возможность восстановить volumetric scene из стереопары в реальном времени.

https://habr.com/ru/articles/1027980/

#head_tracking #MediaPipe #Threejs #WebGL #GLSL #стереопара #offaxis_projection #3Dвидео #True3D #Gaussian_splats

3D-кино с трекингом глаз: технический разбор моей реализации и открытые вопросы

В моей домашней коллекции есть несколько фильмов в формате Top-Bottom стереопары — Marvel-овские, «Аватар», «Гравитация». Без 3D-телевизора или VR-очков смотреть их без потерь нельзя: на обычном...

Хабр
Projet 1re / Tle #NSI : Air Pyxel
#MediaPipe + #Pyxel + #Python

Я научил виртуальную камеру быть оператором: как устроен алгоритм face tracking для Shorts/Reels

В предыдущей статье я подробно рассказывал про свой "аниме завод" — пайплайн, который автоматически превращает эпизоды в готовые Shorts. Но внутри этой системы есть один особенно важный узел, который заслуживает отдельного разбора: виртуальная камера для автоматического кадрирования. В этой статье я разберу не просто "функцию автокропа", а полноценный алгоритм виртуальной камеры для вертикального видео. Это тот случай, когда задача на первый взгляд кажется простой: есть горизонтальный ролик, нужно сделать 9:16, удержать человека в кадре и не превратить результат в дёрганый автофокус из начала 2010-х. Но как только начинаешь делать это не для демо, а для реального пайплайна, сразу всплывают инженерные проблемы:

https://habr.com/ru/articles/1021278/

#face_tracking #virtual_camera #MediaPipe #YuNet #Haar_Cascade #OpenCV #Shorts #Reels #computer_vision #auto_crop

Я научил виртуальную камеру быть оператором: как устроен алгоритм face tracking для Shorts/Reels

В предыдущей статье я подробно рассказывал про свой "аниме завод" — пайплайн, который автоматически превращает эпизоды в готовые Shorts. Но внутри этой системы есть один особенно важный узел, который...

Хабр
MediaPipe Three.js Real-Time 3D Anatomy Visualization | Nick Bisesi posted on the topic | LinkedIn

Built a real-time skeletal visualization using MediaPipe and Three.js. Created for K-12 anatomy education, but it runs entirely in the browser on any device. Been heads down building immersive experiences for a while, so this is one of many! Would love to hear what you think and what other applications people see for this! #WebXR #ThreeJS #EdTech | 16 comments on LinkedIn

LinkedIn
Another neuro tool you never asked for. A #brain #Tractography visualizer in #Threejs animated by #mediapipe. The tractography is not real, those are just drawn lines.
Demo and source code: https://www.alessandrocrimi.com/ar/brain-tractography.html
Hand Tracking with MediaPipe (Task API)

Real-time hand tracking using the MediaPipe Task API and a TensorFlow Lite model.
The 21 hand landmark points are detected live and displayed as a skeleton. I used my old PlayStation 2 EyeToy camera with a resolution of 640×480 px.

Such systems can be used for gesture control, motion capturing, VR/AR interaction, touch-free interfaces, robotics interfaces, or even for computer games and creative projects.

Similar techniques can be used to implement other forms of computer vision, such as face or eye tracking, by using the corresponding model instead of the hand model.

Video workflow:

- Recorded with OBS
- Edited in Kdenlive
- Transcoded with VAAPI (H.264)

Everything runs on Linux + Python (FOSS), so anyone can set this up.

Background music: Kenke - Counting Stars (Rock Version) [Nightcore] (https://www.youtube.com/watch?v=y8OwQo225cI)

#ComputerVision #MediaPipe #MachineLearning #HandTracking #Python #Linux #OpenSource #RetroTech #EyeToy

I wanted to create website - sign language dictionary.

I have around 3k clips (up to 7 s) with many signs and wanted to generate interactive (rotatable, slowed down or speed up, reversable) animations to publish on website.

At the moment I plan to use MediaPipe Holistic which would generate .json for posture, hands and face movement. Next I want to use RDM, React and Three.js to show model on webpage.

Is there better or more optimal approach to this?

#SignLanguage #mediapipe

MediaPipeのランドマーク検出でマスクをした人の顔がどのように判定されるか調べてみた
https://qiita.com/ssc-karasawa/items/70991a5ac68ad1f6dc61?utm_campaign=popular_items&utm_medium=feed&utm_source=popular_items

#qiita #Python #landmark #MediaPipe

MediaPipeのランドマーク検出でマスクをした人の顔がどのように判定されるか調べてみた - Qiita

はじめに 前回の記事PythonでMediaPipeを使って顔のランドマーク検出をやってみたでMediaPipeを使ってみたのですが、マスクをしている人がどのような判定をされるか気になったので調べてみました。 マスクをした画像で分析 マスクをした画像とマスクをしていない...

Qiita

Шпаргалка по инференсу на С++

Если ты только погружаешься в работу с инференсом на C++ и тебе интересно получить представление о том, как можно собирать и запускать популярные ML-библиотеки, то я рад поделиться базой, которую я использую в своих проектах. Здесь ты найдёшь простые проекты, решающие основные ML-задачи, и немного теории к этому коду. Надеюсь, что приведённый код может стать первой рабочей версией для новых фич в твоих проектах.

https://habr.com/ru/articles/986204/

#C++ #Inference #ML #OpenCV #mediapipe #ocr #yolo #triton #onnxruntime #pybind11

Шпаргалка по инференсу на С++

План курса про инференс ML-моделей на C++ Оглавление Введение OpenCV CMake Conan MediaPipe MediaPipe С++ MediaPipe Pybind11 YOLO ONNX Runtime Triton Inference Server OCR Tesseract Введение Я 5 лет...

Хабр