Multimodal Vision Intelligence with .NET MAUI
https://devblogs.microsoft.com/dotnet/multimodal-vision-intelligence-with-dotnet-maui/
#microsoft #NET #NET_MAUI #AI #ai_foundry #computer_vision #copilot
Multimodal Vision Intelligence with .NET MAUI
https://devblogs.microsoft.com/dotnet/multimodal-vision-intelligence-with-dotnet-maui/
#microsoft #NET #NET_MAUI #AI #ai_foundry #computer_vision #copilot
Залезаем на плечи гигантов — создаем модуль для ComfyUI для свободного движения камеры и создание 6dof сцен из фото
Всем привет! Я много работаю с видео для виртуальной реальности, и одна из задач, которая всё ещё маячит на горизонте и требует уймы усилий — удобное создание и стриминг полноценного 6Dof видео . Большинство существующих решений сводятся к двум крупным направлениям. В этой статье мы рассмотрим, как расширить возможности генеративных моделей для виртуальной реальности (VR), создав модуль для ComfyUI, который позволит: преобразовывать изображения и видео между pinhole , fisheye и equirectangular проекциями; итеративно дорисовывать панорамы до полного сферического охвата; синтезировать новые ракурсы свободным движением камеры в 3‑D‑пространстве. Я покажy, как объединить продвинутый reprojection grid_sample с outoainting, картами глубины и облаками точек, чтобы получить реалистичные «новые виды» из одного изображения. Кроме того совместим этот подход с подходом Video Generation
Крутим Fisheye камеру в синтезированном мире Всем привет! Я много работаю с видео для виртуальной реальности, и одна из задач, которая всё ещё маячит на горизонте и требует уймы усилий — удобное...
Kandinsky 4.1 Image – новый генератор изображений от Сбера
В декабре прошлого года на конференции AI Journey наша команда представила диффузионную генеративную модель Kandinsky 4.0 Video. Теперь мы рады представить новую версию нашей модели генерации изображений Kandinsky 4.1 Image!
https://habr.com/ru/companies/sberbank/articles/915760/
#генерация_изображений #kandinsky_4 #sberai #generative_models #texttoimage #computer_vision #diffusion #sft #artificial_intelligence #machine_learning
Генерация видео: Обзор интересных подходов | Text-2-video | Part 2
Освечу базовые концепты из области генерации видео, в этой части разберем уже более современные модели 2025 года, и парочку моделей, с которых все начиналось. Все кратко и четко, только самое основное. Посмотрим на устройство современных топовых SOTA моделей для генерации видео: Wan2.1, Hunyuan video, недавно вышедший подход к облегчению вычислетильных требования FramePack.
https://habr.com/ru/articles/912522/
#computer_vision #нейросети #ml #video_generation #собеседования #stablediffusion #wan21 #comfyui #видеогенератор
Генерация видео: Обзор интересных подходов | Text-2-video | Part 1
План следующий: Методы адаптации T2I в T2V : AnimateDiff, Text2Video Zero Обзор классических подходов : Stable Video Diffusion, CogVideo Новые модельки 2025 : Wan2.1, HunyuanVideo, FramePack Это первая часть из списка статей, тут будет только про T2I в T2V
https://habr.com/ru/articles/910326/
#computer_vision #нейросети #ml #video_generation #собеседования #собеседования_задачи #ai #stable_diffusion #comfyui #animatediff
Новая генеративная модель Kandinsky 3D для создания 3D-объектов. Как она работает и кому будет полезна
Салют, Хабр! В прошлом году мы рассказали о наших исследованиях и разработках в сфере генеративных моделей для 3D-контента, а теперь открываем доступ для тестирования. Встречайте первый российский сервис для генерации 3D-моделей по текстовому описанию или изображению — Kandinsky 3D .
https://habr.com/ru/companies/sberbank/articles/908820/
#генеративные_модели #3d #3dграфика #ml #kandinsky #computer_vision
Салют, Хабр! В прошлом году мы рассказали о наших исследованиях и разработках в сфере генеративных моделей для 3D-контента, а теперь открываем доступ для тестирования. Встречайте первый российский...
Как мы учили Алису видеть мир с помощью мультимодальной нейросети Яндекса
Недавно пользователям приложения «Алиса» стал доступен Live-режим, который работает на базе мультимодальной нейросети (VLM), созданной в Яндексе. В этом режиме Алиса распознаёт объекты, показанные ей через камеру смартфона, и рассказывает о них пользователю. А ещё раньше наша VLM стала применяться в Поиске по картинкам, Умной камере и Нейроэксперте. Всё это время технология не стояла на месте и продолжала совершенствоваться. Пожалуй, пришло время поделиться опытом. На связи Роман Исаченко из команды компьютерного зрения в Яндексе. Сегодня я расскажу, какой путь наша VLM прошла за полгода. А Дарья @dara-orange Виноградова, которая работает со мной в той же команде, поделится описанием пайплайна зрения в Алисе. Мы опишем весь путь формирования новой модели: от архитектуры и сбора данных до финальных замеров качества и скорости.
https://habr.com/ru/companies/yandex/articles/904584/
#vlm #natural_language_processing #computer_vision #multimodality #яндекс
[Перевод] Всё про инференс на Sophon NPU
В этой статье мы поговорим про ML на базе плат Sophon. Наверное это один из производителей которые набрали больше всего популярнсти в AI последнее время. Я расскажу как они соотносятся с другими платами на рынке (Jetson, RockChip, Hailo, TI, etc.). Расскажу как подготовить сети для работы на платформах, покажу ограничения (что пока нельзя сделать, ограничения по скорости, и.т.д.).
https://habr.com/ru/companies/recognitor/articles/898152/
#Sophon #NPU #Jetson #RockChip #ML #Edge_Inference #Computer_Vision #LLM #VLM #Qwen