Apple opracowało nowy model AI do analizy długich wideo

Badacze Apple zaprezentowali SlowFast-LLaVA-1.5 – rodzinę modeli językowych (1B, 3B i 7B parametrów) zoptymalizowanych pod kątem zrozumienia długich filmów.

Model łączy analizę obrazów i wideo, a dzięki systemowi dwóch strumieni (szybkiego i wolnego) potrafi efektywnie wyłapywać szczegóły oraz ruch w czasie.

SF-LLaVA-1.5 przewyższa większe modele na benchmarkach LongVideoBench i MLVU, a dodatkowo radzi sobie z zadaniami obrazowymi (OCR, matematyka, wiedza ogólna). Trenuje się go wyłącznie na publicznych zbiorach danych i jest open source (GitHub, Hugging Face).

Mając to na uwadze, naukowcy twierdzą, że:

Podejście to może pomijać niektóre kluczowe klatki w długich filmach i wprowadzać model w błąd co do prędkości odtwarzania wideo. (…) Wydajność SF-LLaVA-1.5 można dodatkowo poprawić, dostrajając wszystkie parametry, w tym koder wizualny. Stwierdziliśmy jednak, że nie jest to trywialne w przypadku długich wideo LLM ze względu na wysoki koszt pamięci GPU związany z buforowaniem wartości aktywacji. Przyszłe badania mogą obejmować integrację technik oszczędzania pamięci, takich jak stochastyczne BP.

Ograniczeniem jest maksymalna liczba 128 analizowanych klatek, co może prowadzić do pomijania istotnych fragmentów w bardzo długich nagraniach. Mimo to model uznano za stan obecnej sztuki w analizie wideo.

Pełne omówienie modelu znajdziecie tutaj.

#AIOpenSource #analizaWideoAI #Apple #AppleAI #AppleBadaniaAI #AppleIntelligence #AppleLLM #długieWideoAI #GitHubAppleAI #HuggingFaceApple #LLMWideo #SlowFastLLaVA15

Apple ujawnia trzy kluczowe badania z konferencji o prywatności i sztucznej inteligencji

Apple opublikowało prezentacje z Workshop on Privacy-Preserving Machine Learning (20–21 marca 2025), poświęconego prywatności i bezpieczeństwu w rozwoju AI.

Kilka miesięcy temu Apple zorganizowało warsztaty na temat uczenia maszynowego z zachowaniem prywatności, podczas których przedstawiono prezentacje i dyskusje na temat prywatności, bezpieczeństwa i innych kluczowych obszarów odpowiedzialnego rozwoju uczenia maszynowego. Teraz prezentacje te zostały upublicznione.

Podobnie jak niedawno w przypadku prezentacji z 2024 Workshop on Human-Centered Machine Learning, Apple opublikowało post na swoim blogu Machine Learning Research z kilkoma filmami i długą listą badań i artykułów, które zostały zaprezentowane podczas dwudniowego wydarzenia hybrydowego, które odbyło się w dniach 20-21 marca 2025 roku.

Do trzech najważniejszych prac należy zaliczyć.

Local Pan-Privacy for Federated Analytics – badanie Apple pokazuje, jak chronić prywatność danych nawet wtedy, gdy urządzenie zostanie wielokrotnie skompromitowane. Zastosowano nowe szyfrowane metody pozwalające zbierać statystyki bez ujawniania aktywności użytkownika.

Źródło: 9to5Mac.

Scalable Private Search with Wally – Apple zaprezentowało system wyszukiwania z wykorzystaniem differential privacy. Mechanizm Wally dodaje do zapytania losowe dane, co zapewnia anonimowość użytkowników, a jednocześnie umożliwia obsługę milionów żądań przy niższych kosztach.

Źródło: 9to5Mac.

Differentially Private Synthetic Data via Foundation Model APIs – badanie Microsoftu pokazuje, jak generować syntetyczne dane na podstawie modeli foundation, zachowując wartość danych rzeczywistych, ale bez naruszania prywatności.

Źródło: 9to5Mac.

Łącznie udostępniono 25 publikacji, przygotowanych przez badaczy z Apple, Microsoftu, Google oraz czołowych uczelni (m.in. MIT, UC Berkeley, Carnegie Mellon).

Oto ich pełna lista:

#AppleAI #AppleBadaniaAI #AppleKonferencjaPrywatność #bezpieczeństwoWAI #daneSyntetyczneAI #differentialPrivacy #federatedAnalytics #prywatnośćDanychApple #sztucznaInteligencjaApple #WallyApple