Mastodawn

Multimodal Vision Intelligence with .NET MAUI
https://devblogs.microsoft.com/dotnet/multimodal-vision-intelligence-with-dotnet-maui/

#microsoft #NET #NET_MAUI #AI #ai_foundry #computer_vision #copilot

Multimodal Vision Intelligence with .NET MAUI - .NET Blog

Enhance your .NET MAUI app with photo-based AI by capturing images and extracting structured information using Microsoft.Extensions.AI.

.NET Blog

Habr Jun 15

Залезаем на плечи гигантов — создаем модуль для ComfyUI для свободного движения камеры и создание 6dof сцен из фото

Всем привет! Я много работаю с видео для виртуальной реальности, и одна из задач, которая всё ещё маячит на горизонте и требует уймы усилий — удобное создание и стриминг полноценного 6Dof видео . Большинство существующих решений сводятся к двум крупным направлениям. В этой статье мы рассмотрим, как расширить возможности генеративных моделей для виртуальной реальности (VR), создав модуль для ComfyUI, который позволит: преобразовывать изображения и видео между pinhole , fisheye и equirectangular проекциями; итеративно дорисовывать панорамы до полного сферического охвата; синтезировать новые ракурсы свободным движением камеры в 3‑D‑пространстве. Я покажy, как объединить продвинутый reprojection grid_sample с outoainting, картами глубины и облаками точек, чтобы получить реалистичные «новые виды» из одного изображения. Кроме того совместим этот подход с подходом Video Generation

https://habr.com/ru/articles/912652/

#computer_vision

Залезаем на плечи гигантов — создаем модуль для ComfyUI для свободного движения камеры и создание 6dof сцен из фото

Крутим Fisheye камеру в синтезированном мире Всем привет! Я много работаю с видео для виртуальной реальности, и одна из задач, которая всё ещё маячит на горизонте и требует уймы усилий — удобное...

Хабр

Hacker News Jun 6

Free Gaussian Primitives at Anytime Anywhere for Dynamic Scene Reconstruction
https://zju3dv.github.io/freetimegs/
#ycombinator #Computer_Vision #Computer_Graphics #NeRF #3D_Gaussian_Splatting #Novel_View_Synthesis #Freeviewpoint_Video

FreeTimeGS

This paper aims to address the challenge of reconstructing volumetric videos with fast and complex motions from multi-view RGB videos.

Habr Jun 5

Kandinsky 4.1 Image – новый генератор изображений от Сбера

В декабре прошлого года на конференции AI Journey наша команда представила диффузионную генеративную модель Kandinsky 4.0 Video. Теперь мы рады представить новую версию нашей модели генерации изображений Kandinsky 4.1 Image!

https://habr.com/ru/companies/sberbank/articles/915760/

#генерация_изображений #kandinsky_4 #sberai #generative_models #texttoimage #computer_vision #diffusion #sft #artificial_intelligence #machine_learning

Kandinsky 4.1 Image – новый генератор изображений от Сбера

В декабре прошлого года на конференции AI Journey наша команда представила диффузионную генеративную модель Kandinsky 4.0 Video ( статья на habr ). Теперь мы рады представить новую версию нашей...

Хабр

Hacker News Jun 3

Vision Language Models Are Biased
https://vlmsarebiased.github.io/
#ycombinator #VLM #Vision_Language_Models #Bias #Computer_Vision #Counting

Vision Language Models are Biased

Vision Language Models are Biased: VLMs fail on simple counting tasks when familiar objects are subtly modified

Habr May 24

Генерация видео: Обзор интересных подходов | Text-2-video | Part 2

Освечу базовые концепты из области генерации видео, в этой части разберем уже более современные модели 2025 года, и парочку моделей, с которых все начиналось. Все кратко и четко, только самое основное. Посмотрим на устройство современных топовых SOTA моделей для генерации видео: Wan2.1, Hunyuan video, недавно вышедший подход к облегчению вычислетильных требования FramePack.

https://habr.com/ru/articles/912522/

#computer_vision #нейросети #ml #video_generation #собеседования #stablediffusion #wan21 #comfyui #видеогенератор

Генерация видео: Обзор интересных подходов | Text-2-video | Part 2

Освещу базовые концепты в области генерации видео. В этой части рассмотрю как современные модели 2025 года, так и несколько ключевых архитектур, с которых всё начиналось. Всё кратко и по делу — только...

Хабр

Habr May 17

Генерация видео: Обзор интересных подходов | Text-2-video | Part 1

План следующий: Методы адаптации T2I в T2V : AnimateDiﬀ, Text2Video Zero Обзор классических подходов : Stable Video Diﬀusion, CogVideo Новые модельки 2025 : Wan2.1, HunyuanVideo, FramePack Это первая часть из списка статей, тут будет только про T2I в T2V

https://habr.com/ru/articles/910326/

#computer_vision #нейросети #ml #video_generation #собеседования #собеседования_задачи #ai #stable_diffusion #comfyui #animatediff

Генерация видео: Обзор интересных подходов | Text-2-video | Part 1

Тут я расскажу про основные подходы в генерации видео, материал будет полезен ML/Computer vision разработчикам , чтобы держать руку на пульсе, и людям интересующимся нейросетями + AI План следующий:...

Хабр

Habr May 13

Новая генеративная модель Kandinsky 3D для создания 3D-объектов. Как она работает и кому будет полезна

Салют, Хабр! В прошлом году мы рассказали о наших исследованиях и разработках в сфере генеративных моделей для 3D-контента, а теперь открываем доступ для тестирования. Встречайте первый российский сервис для генерации 3D-моделей по текстовому описанию или изображению — Kandinsky 3D .

https://habr.com/ru/companies/sberbank/articles/908820/

#генеративные_модели #3d #3dграфика #ml #kandinsky #computer_vision

Новая генеративная модель Kandinsky 3D для создания 3D-объектов. Как она работает и кому будет полезна

Хабр

Habr Apr 29

Как мы учили Алису видеть мир с помощью мультимодальной нейросети Яндекса

Недавно пользователям приложения «Алиса» стал доступен Live-режим, который работает на базе мультимодальной нейросети (VLM), созданной в Яндексе. В этом режиме Алиса распознаёт объекты, показанные ей через камеру смартфона, и рассказывает о них пользователю. А ещё раньше наша VLM стала применяться в Поиске по картинкам, Умной камере и Нейроэксперте. Всё это время технология не стояла на месте и продолжала совершенствоваться. Пожалуй, пришло время поделиться опытом. На связи Роман Исаченко из команды компьютерного зрения в Яндексе. Сегодня я расскажу, какой путь наша VLM прошла за полгода. А Дарья @dara-orange Виноградова, которая работает со мной в той же команде, поделится описанием пайплайна зрения в Алисе. Мы опишем весь путь формирования новой модели: от архитектуры и сбора данных до финальных замеров качества и скорости.

https://habr.com/ru/companies/yandex/articles/904584/

#vlm #natural_language_processing #computer_vision #multimodality #яндекс

Как мы учили Алису видеть мир с помощью мультимодальной нейросети Яндекса

Хабр

Habr Apr 10

[Перевод] Всё про инференс на Sophon NPU

В этой статье мы поговорим про ML на базе плат Sophon. Наверное это один из производителей которые набрали больше всего популярнсти в AI последнее время. Я расскажу как они соотносятся с другими платами на рынке (Jetson, RockChip, Hailo, TI, etc.). Расскажу как подготовить сети для работы на платформах, покажу ограничения (что пока нельзя сделать, ограничения по скорости, и.т.д.).

https://habr.com/ru/companies/recognitor/articles/898152/

#Sophon #NPU #Jetson #RockChip #ML #Edge_Inference #Computer_Vision #LLM #VLM #Qwen

Всё про инференс на Sophon NPU

Easter Egg is incoming В этой статье мы поговорим про ML на базе плат Sophon. Наверное это один из производителей которые набрали больше всего популярнсти в AI последнее время. Я расскажу как...

Хабр