Детектор AI-сгенерированных изображений: от идеи до честной оценки качества

Всем привет! Меня зовут Татьяна Кутузова , я работаю в Wildberries & Russ ML-инженером. Вместе с Иваном Горбуновым и Елисеем Мягких мы занимаемся разработкой AI-детектора изображений, который помогает отличать реальные фотографии от сгенерированных нейросетями. Детектор появился из практической потребности: генеративные модели стали достаточно хороши, чтобы их результат массово попадал в пользовательский контент, и платформе понадобился автоматический способ с этим работать. Создание такого инструмента — это не только обучение модели, но и большое количество инженерных, продуктовых и методологических решений: что считать генерацией, на каких данных обучаться, как обеспечить устойчивость к новым моделям и как интегрировать детектор в реальные процессы. В этой статье рассказываем, как мы подошли к созданию AI-детектора: от выбора архитектуры и данных до продуктовых границ и сценариев применения. Отдельное внимание уделяем тому, как в таких задачах корректно оценивать качество модели, какие метрики имеют смысл и почему их интерпретация не менее важна, чем сами числа.

https://habr.com/ru/companies/wildberries/articles/976826/

#метрики #ai #machinelearning #data_science #computervision #компьютерное_зрение #transformers #generative_models #генеративный_ии #нейросети

Детектор AI-сгенерированных изображений: от идеи до честной оценки качества

Всем привет! Меня зовут Татьяна Кутузова, я работаю в Wildberries & Russ ML-инженером. Вместе с Иваном Горбуновым и Елисеем Мягких мы занимаемся разработкой AI-детектора изображений, который...

Хабр

Как построить идеальную «песочницу» для ML-моделей

Привет, Хабр! Я Даниил Салман, техлид по контейнеризации. Эта статья написана по мотивам моего доклада для конференции DevOops. Разберёмся, как сделать такую ML-«песочницу», где Data Scientist пишет код, а всё остальное (установка драйверов, выделение ресурсов, деплой и тренировка модели, сбор метрик) уже настроено на бэкенде. Написали максимально просто и доступно, чтобы понять смог даже человек с минимальным погружением в тему. Идеи из этой статьи можно применять в любой инфраструктуре — важно лишь понимать основы: как работает k8s-кластер, Docker и python-фреймворки. Итак, поехали!

https://habr.com/ru/companies/k2tech/articles/980802/

#инфраструктура #ml #mlops #ai #ml_песочница #искусственный_интеллект #data_science #модели #devops #kubernetes

Как построить идеальную «песочницу» для ML-моделей

Привет, Хабр! Я Даниил Салман, техлид по контейнеризации. Эта статья написана по мотивам моего доклада для конференции DevOops. Разберёмся, как сделать такую ML-«песочницу», где Data Scientist пишет...

Хабр

Стек начинающего дата-сайентиста в 2026: инструменты для роста

Привет! Я Максим Катрушенко, главный специалист по анализу данных и машинному обучению в ПГК Диджитал. В свое предыдущей статье я разбирал ошибки в резюме джунов (и не только) , которые снижают шансы попасть в ML. Сегодня расскажу, как упорядочить инструменты data scientist'а, чтобы легко адаптироваться в специальности. Введение Недавно мне показали проект по прогнозированию ремонта вагонов. Несколько десятков параметров, миллионы записей. Всё решение — один файл Jupyter Notebook и пара скриптов. Я открыл этот файл. Две тысячи строк кода. Названия переменных вроде df_tmp_final_v3. Комментарии на смеси русского и английского. Сохранённые модели назывались model_good.pkl и model_production_maybe.pkl. Некоторые ячейки кода было страшно запускать. Ни документации, ни записи о проведённых тестах. Узнаёте? Это частая реальность в области данных. Вы не одиноки Многие начинающие специалисты задают похожие вопросы: Как работать, когда тестов уже несколько десятков? Вы перебираете настройки и алгоритмы, но через неделю не можете вспомнить, что дало лучший результат. Как внедрить модель? В Notebook всё работает, но как превратить её в сервис, который сможет использовать ваше приложение? Хорошая новость: для этих проблем уже есть решения. На курсах об этом часто не говорят...

https://habr.com/ru/companies/pgk/articles/979688/

#automl #ml #машинное_обучение #data_science #mlops #карьера_итспециалиста #карьера

Стек начинающего дата-сайентиста в 2026: инструменты для роста

Краткий гид: от хаоса к профессиональной разработке моделей машинного обучения Привет! Я Максим Катрушенко, главный специалист по анализу данных и машинному обучению в ПГК Диджитал. В свое предыдущей...

Хабр

[Перевод] Manim: как создавать математические анимации в стиле 3Blue1Brown с помощью Python

Команда Python for Devs подготовила перевод статьи о Manim — Python-инструменте для создания наглядных математических анимаций в стиле 3Blue1Brown. Разбираемся, как с помощью кода визуализировать уравнения, графики и абстрактные идеи так, чтобы они были понятны коллегам, менеджерам и студентам.

https://habr.com/ru/articles/978902/

#manim #3blue1brown #latex #data_science #математика #анимация #визуализация #графики

Manim: как создавать математические анимации в стиле 3Blue1Brown с помощью Python

Команда Python for Devs  подготовила перевод статьи о Manim — Python-инструменте для создания наглядных математических анимаций в стиле 3Blue1Brown. Разбираемся, как с помощью кода...

Хабр

Анализ 400k вакансий hh.ru: как мы строили пайплайн и какие тренды нашли

Какие навыки реально нужны в IT? Разбор рынка по данным hh.ru . Мы обработали 393 000 вакансий за 2025 год и делимся результатами: универсальный стек технологий, медианные зарплаты по специальностям и доля удаленки. А еще — техническая реализация нашего open-source проекта для сбора данных.

https://habr.com/ru/articles/979118/

#Анализ_данных #Python #hhru #API #SQLite #Визуализация_данных #базы_данных #data_science #проектирование_систем

Анализ 400k вакансий hh.ru: как мы строили пайплайн и какие тренды нашли

Всем привет! Сегодня я расскажу, как наша студенческая команда из СПбПУ разработала систему для сбора и анализа данных о российском IT-рынке труда с помощью платформы  hh.ru . Вместо...

Хабр

Выбираем между DS и AI

Специализации наука о данных (Data Science) и искусственный интеллект (artificial intelligence) имеют некоторые сходства и у начинающих специалистов может возникнуть путаница в этих специализациях. В этой статье мы рассмотри сходства и различия этих направлений, используемые инструменты и требования, которые предъявляются к соответствующим специалистам. Выбрать путь

https://habr.com/ru/companies/otus/articles/978220/

#ai #data_science #искусственный_интеллект #машинное_обучение #карьера_в_it

Выбираем между DS и AI

Специализации наука о данных (Data Science) и искусственный интеллект (artificial intelligence) похожи, и у начинающих специалистов может возникнуть путаница. В этой статье мы рассмотри сходства и...

Хабр

Автоэнкодер: как нейросеть учится понимать норму

Непосвящённому человеку кажется, что нейронная сеть может всё. Средства массовой информации этот миф только подпитывают, а где-то в недрах Голливуда Джеймс Камерон шепчет: «Я не режиссёр — я пророк». В реальной же повседневной работе от нейронной сети мне нужна одна простая и приземлённая вещь — поиск аномалий в данных . И вот с этим нейросети действительно справляются. Более того, для этого у них есть специальный инструмент — автоэнкодер . В этом небольшом опусе я попробую быстро, просто и без магии объяснить, что такое автоэнкодер, как он работает и почему он вообще способен находить аномалии .

https://habr.com/ru/articles/976480/

#автоэнкодер #ии #python #data_science #data_analysis

Автоэнкодер: как нейросеть учится понимать норму

Введение Непосвящённому человеку кажется, что нейронная сеть может всё. Средства массовой информации этот миф только подпитывают, а где-то в недрах Голливуда Джеймс Камерон шепчет: «Я не режиссёр — я...

Хабр

DAG-классификация: как мы научили поиск определять нужную категорию ступенчатым образом

Одна из важнейших задач поиска — релевантная выдача. Простых универсальных решений здесь нет, а улучшение поиска — долгосрочный процесс, где крупные задачи приходится разбивать на небольшие, последовательные шаги. В этой статье делимся тем, как нам в «Магнит Маркете» удалось значительно улучшить качество поиска с помощью нетривиального подхода: ступенчатой классификации категории поискового запроса.

https://habr.com/ru/companies/magnit/articles/975980/

#ml #dag #поиск #ранжирование #релевантный_поиск #релевантность_поисковой_выдачи #data_science #dagмодель #оптимизация_поиска

DAG-классификация: как мы научили поиск определять нужную категорию ступенчатым образом

Мы — платформенная команда ML-инженеров в Магнит OMNI: бизнес-группе, объединяющей сервис доставки «Магнит Фудтех», маркетплейс «Магнит Маркет», рекламную платформу AdTech и программу лояльности...

Хабр

От «обезьяньей» работы к Smart-анализу: как выполнить предобработку данных для моделей

От «обезьяньей» работы к Smart-анализу: как правильно готовить данные для моделей. Что такое Exploratory Data Analysis и как избежать основных ошибок при его выполнении.

https://habr.com/ru/articles/975082/

#pandas #sklearn #data_science #exploratory_data_analysis #machine_learning #numpy #statistics #feature_engineering

От «обезьяньей» работы к Smart-анализу: как выполнить предобработку данных для моделей

Обезьянья предобработка данных Мы частенько шутим с коллегами , что любые действия можно поделить на «обезьяньи» и «smart» . Обезьянья работа - это когда ты что-то делаешь на автомате, не включая мозг...

Хабр

Цифровые культиваторы, теплицы и мотоблоки или мультиагентная трансформация АПК

Миронов В.О., Кальченко С.Н. Приветствую вас, бравые хаброжители ;)) В наше время искусственный интеллект очень быстро развивается, при этом, вносит значительные коррективы в развитие различных профессий, диктуя там свои правила и виденье. При этом основные козыри — это скорость, время и профит. В этом контексте мы и будем говорить о сложившейся ситуации, а именно, о дифференцированной трансформации профессий. Да-да, все видели, эти километровые лонгриды, когда ИИшка выкатывает список профессий, которые попадают под трансформацию. При этом какие-то прогнозы сбываются какие-то нет, как и в целом всё в жизни. Однако, почему именно дифференцированной, да всё потому что, профессии даже не столько дифференцируются, сколько видоизменяются, но их суть остаётся той же. Бывает даже так, что не всегда удаётся охватить весь спектр нововведений.

https://habr.com/ru/articles/973682/

#analytics #analysis #agrohack #agrocode #machinelearning #computervision #computer_science #data_science #data_analysis #data_engineering

Цифровые культиваторы, теплицы и мотоблоки или мультиагентная трансформация АПК

Миронов В.О., Кальченко С.Н. Приветствую вас, бравые хаброжители ;-) В наше время искусственный интеллект очень быстро развивается, при этом, вносит значительные коррективы в развитие различных...

Хабр