Logos AI Assistant — полноценный ИИ-агент для вашего десктопа

Logos AI Assistant — это не просто инструмент для автоматизации, это ваш творческий и исполнительный партнёр для решения широкого круга задач прямо на рабочем столе. Он обладает всеми возможностями продвинутых ИИ-ассистентов, таких как Gemini CLI: может писать код, создавать и редактировать тексты, работать с файлами и выполнять сложные команды в терминале. Но Logos идёт гораздо дальше. Его ключевое преимущество — это выход за пределы командной строки. Благодаря движку компьютерного зрения OmniParser, ассистент получает «глаза», а через управление мышью и клавиатурой — «руки». Это фундаментально расширяет перечень решаемых задач. Теперь LLM не ограничена файловой системой и терминалом; она может работать внутри любого графического приложения на вашем компьютере.

https://habr.com/ru/articles/973332/

#Logos_AI_Assistant #ai_agent #automatization #llm #computer_vision #omniparse #pyside6 #crossplatform #terminal #gui

Logos AI Assistant — полноценный ИИ-агент для вашего десктопа

Logos AI Assistant: Дайте "глаза и руки" нейросети на вашем рабочем столе Вспомните, сколько раз вам приходилось заниматься ручной, механической работой: переносить данные из одной программы в другую,...

Хабр

[Перевод] Визуально-языковые модели: следующий шаг эволюции LLM

Компьютерное зрение больше не живёт отдельно от языковых моделей: визуальные энкодеры, контрастивные лоссы и cross-attention становятся стандартной «обвязкой» вокруг LLM, которые учатся понимать изображения, видео и сложные сцены. В статье разбираются основные архитектуры визуально-языковых моделей, подходы к обучению на парах «изображение–текст», переход к динамическому разрешению и сжатию видеотокенов — то, как классическое CV переупаковывается в мультимодальные системы нового поколения. Перейти к материалу

https://habr.com/ru/companies/otus/articles/973180/

#Computer_Vision #CV #Машинное_обучение #Нейросети #компьютерное_зрение #визуальноязыковые_модели #мультимодальность #визуальные_энкодеры #обучение_модели #Vision_Transformer

Визуально-языковые модели: следующий шаг эволюции LLM

Ранее мы разбирали методы самосупервизируемого обучения в компьютерном зрении , которые преобразуют изображения и видео в информативные векторные представления (эмбеддинги). Несмотря на их мощь, такие...

Хабр

Данные против модели: почему больше — не всегда значит лучше в задаче Face Antispoofing

Привет, Хабр! Мы – Вадим Чернышев и Михаил Никитин из команды Tevian. Сегодня, в рамках задачи Face Antispoofing, мы разберем, как один “хороший и легкий”, но бездумно добавленный домен может убить обобщающую способность вашей нейросети, и что с этим можно сделать.

https://habr.com/ru/companies/tevian/articles/972064/

#liveness_detection #computer_vision #обучение_нейросетей #ии #иимодель

Данные против модели: почему больше — не всегда значит лучше в задаче Face Antispoofing

Привет, Хабр! Мы – Вадим Чернышев и Михаил Никитин из команды Tevian.  Ранее наши коллеги говорили о метриках в задаче трекинга объектов. Сегодня наша очередь: в рамках задачи Face Antispoofing,...

Хабр

Сравнительный анализ 18 LLM моделей: конец монополии?

🏆 Open-Source Догнал Топов: Что Произошло в Ноябре 2025? Конец монополии! Kimi-K2-Thinking (MIT-лицензия) — новый чемпион мысли. Эта open-source модель сравнялась с Claude Sonnet 4, показала 84.5% на GPQA Diamond (научное рассуждение) и 94.5-100% на олимпиадной математике AIME, опередив GPT-4o более чем на 30 процентных пунктов. Российский GigaChat3-702B взрывает кодинг! Сбер выпустил модель с архитектурой MoE (702B параметров) под MIT-лицензией, которая показала мировой рекорд на бенчмарке HumanEval+ (86.59%), обойдя все закрытые LLM, включая GPT и Claude. MoE-магия для локального запуска: Qwen3-30B-A3B с архитектурой MoE (3.3B активных параметров) обеспечивает качество 70B+ модели, умещаясь на одной H100 — идеальный компромисс для стартапов и R&D.

https://habr.com/ru/articles/971864/

#llm #языковые_модели #nlp #сравнение_llm #data_science #ai #python #opensource #computer_vision #обзор

Сравнительный анализ 18 LLM моделей: конец монополии?

Сравнительный анализ 18 LLM моделей: конец монополии? Ноябрь 2025 — месяц, когда open-source модели официально догнали проприетарные. Разбираем, что произошло, кто теперь на вершине, и как это...

Хабр

Как я собрал и подготовил датасет дефектов печатных плат для обучения моделей YOLO

Когда пришло время выбирать тему диплома, я, как и многие студенты, понятия не имел, о чём писать. После мозгового штурма с одногруппниками родилась идея, которая из простого «варианта для защиты» превратилась в полноценный инженерный проект: «исследование и разработка системы автоматического распознавания дефектов печатных плат». Со временем я понял, что выбрал тему не случайно - это реально актуальная задача для производства, где качество пайки напрямую влияет на работоспособность устройств, а ещё отличный шанс пройти весь цикл Computer Vision проекта от сбора данных до обучения моделей. Эта статья краткая выжимка моего опыта: как собрал собственный датасет дефектов печатных плат для обучения моделей, какие инструменты использовал и на что стоит обратить внимание. Статья будет полезна:

https://habr.com/ru/articles/968626/

#yolo #dataset #labeling #PCB #обучение_моделей #разметка_датасета #computer_vision #machine_learning #машинное_обучение #учусь_программировать

Как я собрал и подготовил датасет дефектов печатных плат для обучения моделей YOLO

Когда пришло время выбирать тему диплома, я, как и многие студенты, понятия не имел, о чём писать. После мозгового штурма с одногруппниками родилась идея, которая из простого...

Хабр

Нейросети наконец-то «прозрели»? DeepMind переписали логику машинного зрения: разбор Nature

Помните старый мем, где нейросеть не могла отличить чихуахуа от маффина с изюмом? Мы смеялись, но для разработчиков мультимодальных агентов это была настоящая головная боль. До сегодняшнего дня все наши SOTA-модели (Vision Transformers, CLIP и прочие) страдали одной болезнью: текстурным смещением (texture bias) . Они «смотрели» на мир не как мы (через форму и суть объекта), а как инопланетяне — через пятна цвета и фактуру. Покажите модели кошку, обтянутую текстурой слоновьей кожи, и для неё это будет слон. Точка. Но Google DeepMind, похоже, нашли лекарство. На днях в Nature вышла их статья, которая меняет правила игры. Они представили метод, заставляющий модели «думать» о картинках так же, как это делаем мы. Я закопался в их пейпер, покрутил демки и примеры, и теперь готов рассказать, почему это не просто очередное «улучшение на 2%», а реальный шаг к AGI.

https://habr.com/ru/articles/967458/

#deepmind #computer_vision #agi #нейросети

Нейросети наконец-то «прозрели»? DeepMind переписали логику машинного зрения: разбор Nature

Помните старый мем, где нейросеть не могла отличить чихуахуа от маффина с изюмом? Мы смеялись, но для разработчиков мультимодальных агентов это была настоящая головная боль. До сегодняшнего дня все...

Хабр

[Перевод] Сила оттенков серого: компьютерное зрение с нуля

В обсуждениях компьютерного зрения обычно речь идёт об OpenCV или нейронных сетях глубокого обучения наподобие YOLO . Однако в большинстве случаев для работы с компьютерным зрением требуется понимание базовых алгоритмов, чтобы можно было адаптировать их под свои нужды. Мне захотелось понять, насколько далеко я смогу зайти, оставив в computer vision только самый минимум: одни лишь 8-битные изображения в градациях серого; никаких сложных структур данных, старый добрый C, немного байтовых массивов и единственный файл заголовка. В конце концов, изображение — это ведь просто прямоугольник из чисел, не так ли? Этот пост — экскурсия по алгоритмам, лежащим в основе Grayskull — минималистичной библиотеки компьютерного зрения, спроектированной для устройств с ограниченными ресурсами.

https://habr.com/ru/articles/965706/?utm_source=habrahabr&utm_medium=rss&utm_campaign=965706

#компьютерное_зрение #computer_vision #orb #fast #классификатор #распознавание_изображений

Сила оттенков серого: компьютерное зрение с нуля

В обсуждениях компьютерного зрения обычно речь идёт об OpenCV  или нейронных сетях глубокого обучения наподобие YOLO . Однако в большинстве случаев для работы с компьютерным зрением требуется...

Хабр

[Перевод] Сила оттенков серого: компьютерное зрение с нуля

В обсуждениях компьютерного зрения обычно речь идёт об OpenCV или нейронных сетях глубокого обучения наподобие YOLO . Однако в большинстве случаев для работы с компьютерным зрением требуется понимание базовых алгоритмов, чтобы можно было адаптировать их под свои нужды. Мне захотелось понять, насколько далеко я смогу зайти, оставив в computer vision только самый минимум: одни лишь 8-битные изображения в градациях серого; никаких сложных структур данных, старый добрый C, немного байтовых массивов и единственный файл заголовка. В конце концов, изображение — это ведь просто прямоугольник из чисел, не так ли? Этот пост — экскурсия по алгоритмам, лежащим в основе Grayskull — минималистичной библиотеки компьютерного зрения, спроектированной для устройств с ограниченными ресурсами.

https://habr.com/ru/articles/965706/

#компьютерное_зрение #computer_vision #orb #fast #классификатор #распознавание_изображений

Сила оттенков серого: компьютерное зрение с нуля

В обсуждениях компьютерного зрения обычно речь идёт об OpenCV  или нейронных сетях глубокого обучения наподобие YOLO . Однако в большинстве случаев для работы с компьютерным зрением требуется...

Хабр

Оптика в техническом зрении. Лекция 3: Диафрагмы и виньетирование

Привет, Хабр! Меня зовут Андрей, я – специалист по оптическим системам, расчётчик и конструктор в одном лице. Это третья статья из курса основ прикладной оптики, созданного несколько лет назад для внутреннего обучения CV-разработчиков организации, где я работаю. В этой статье мы поговорим о диафрагмах: что они из себя представляют, какие бывают и как влияют на изображение. Также разберёмся, откуда берётся виньетирование и как с ним бороться. Тема при кажущейся простоте весьма сложна — даже в оптической литературе нет единой последовательности её изложения. При подготовке статьи самым сложным оказалось выбрать, какой необходимый минимум рассказывать (а что опустить) и как выстроить текст так, чтобы он легко читался и воспринимался. Думаю, и фотографы, и специалисты по компьютерному зрению найдут здесь для себя что-то новое. Если что-то останется непонятным — прошу в комментарии. Статья сочетает как упрощённые идеи из теории оптических систем, так и мой личный опыт, накопленный при работе с системами технического зрения.

https://habr.com/ru/articles/962202/

#оптика #optics #computer_vision #диафрагма #виньетирование

Оптика в техническом зрении. Лекция 3: Диафрагмы и виньетирование

Лекция 1: Объектив Лекция 2: Аберрации Лекция 3: Диафрагмы и виньетирование Лекция 4: Дифракция и разрешающая способность (ссылка появится позже) Привет, Хабр! Меня зовут Андрей, я – специалист по...

Хабр

Что я вынес из Oxford Machine Learning Summer School 2025

Побывал на Oxford Machine Learning Summer School 2025 — одной из крупнейших летних школ, посвящённых искусственному интеллекту, проходившей в самом центре Оксфорда. В течение четырёх дней мы слушали лекции исследователей из DeepMind, Hugging Face, Amazon, Google, ученых топовых европейских вузов. Обсуждали foundation models, reinforcement learning, generative AI и on-device ML. В статье делюсь своими впечатлениями и кратким пересказом программы, отражающей мировые тренды в развитии современного машинного обучения.

https://habr.com/ru/articles/956138/

#машинное_обучение #llm #computer_vision #multimodal_llm #generative_ai #reinforcementlearning #edge_ai #diffusion_models #образование_в_it #oxford

Что я вынес из Oxford Machine Learning Summer School 2025

Mathematical Institute, University of Oxford Вдохновлено обзором про похожую школу — EEML . Цель данной статьи, показать внутренности коротких курсов, проводимых в одном из старейших...

Хабр