Apple prezentuje Matrix3D — model AI generujący sceny 3D z zaledwie trzech zdjęć

Zespół Apple Machine Learning, we współpracy z Uniwersytetem w Nankinie i Uniwersytetem Nauki i Technologii w Hongkongu, zaprezentował Matrix3D — zaawansowany model AI, który potrafi odtworzyć sceny i obiekty 3D na podstawie jedynie trzech zdjęć 2D.

Matrix3D to tzw. Large Photogrammetry Model, który upraszcza tradycyjny proces fotogrametrii — czyli tworzenia modeli 3D na podstawie zdjęć — poprzez zastosowanie jednej, zunifikowanej architektury. Zamiast wielu etapów (jak estymacja pozycji czy głębi), Matrix3D wykonuje wszystko w jednym kroku, co zwiększa dokładność i efektywność.

Model został wytrenowany z wykorzystaniem strategii maskowania danych wejściowych, znanej z pierwszych wersji modeli Transformer, takich jak ChatGPT. Dzięki temu Matrix3D potrafi generować dokładne rekonstrukcje 3D nawet przy ograniczonych danych.

Efekty są imponujące — model potrafi wygenerować szczegółowe obiekty i środowiska 3D z trzech zdjęć, co otwiera ogromne możliwości np. dla Apple Vision Pro i innych urządzeń XR.

Kod źródłowy Matrix3D jest dostępny na GitHubie, a pełna publikacja trafiła na arXiv. Na stronie projektu można obejrzeć przykładowe filmy oraz interaktywne chmury punktów.

#AI3DZ2DZdjęć #AppleAI3D #AppleAR #AppleMachineLearning #AppleMatrix3D #AppleVisionPro #fotogrametriaAI #immersyjneTechnologieApple #Matrix3DGitHub #modelFotogrametrycznyApple #rekonstrukcja3D #technologiaApple2025

Matrix3D: Large Photogrammetry Model All-in-One

We present Matrix3D, a unified model that performs several photogrammetry subtasks, including pose estimation, depth prediction, and novel…

Apple Machine Learning Research