Как я построил «аниме-завод»: систему, которая сама превращает эпизоды в YouTube Shorts

Привет, Хабр! Последние месяцы я строил систему, которую внутри называю «аниме-заводом»: на вход она получает исходный эпизод, а на выходе собирает готовый YouTube Shorts с динамическим кадрированием, субтитрами, постобработкой и метаданными для публикации. Интереснее всего здесь не сам факт автоматического монтажа, а то, что значительную часть такой работы удалось разложить на инженерные этапы: транскрибацию, анализ аудио и сцены, поиск удачных моментов, управление «виртуальной камерой» и контур обратной связи по метрикам. В статье я покажу, как устроен этот пайплайн, почему я пошел в модульную архитектуру вместо end-to-end black box, где система ломалась и какие решения в итоге сделали ее реально рабочей.

https://habr.com/ru/articles/1014810/

#анализ_видео #Python #computer_vision #автоматизация #YouTube_Shorts #обработка_аудио #субтитры #OpenCV #Whisper #media_pipeline

Как я построил «аниме-завод»: систему, которая сама превращает эпизоды в YouTube Shorts

Привет, Хабр! Последние месяцы я строил систему, которую внутри называю «аниме-заводом»: на вход она получает исходный эпизод, а на выходе собирает готовый YouTube Shorts с динамическим кадрированием,...

Хабр

От вет-ИИ для коров до имперского глянца: хардкорный MLOps на бесплатных GPU

В начале 2026 года ленты новостей принесли тревожные сообщения из Сибири: массовые вспышки опасных заболеваний у КРС (крупного рогатого скота) привели к необходимости вынужденного забоя тысяч голов. Для многих фермеров это означало потерю бизнеса и средств к существованию. Мы задались вопросом: может ли доступный Computer Vision стать первой линией обороны? Инструментом, который позволит фермеру в отдаленном районе провести первичный скрининг (триаж) животного с помощью обычного смартфона и вовремя вызвать ветеринара, не дожидаясь начала эпидемии. Так родился проект AI-Vet-Scanner ( наше пространство на Hugging Face ), определяющий признаки заболеваний по фотографии.

https://habr.com/ru/articles/1013214/

#MLOps #Kaggle #Computer_Vision #OpenCV #PyMuPDF #Hugging_Face #датасет #парсинг #оптимизация_памяти #SDXL_LoRA

От вет-ИИ для коров до имперского глянца: хардкорный MLOps на бесплатных GPU

Введение. Контекст как катализатор В начале 2026 года ленты новостей принесли тревожные сообщения из Сибири: массовые вспышки опасных заболеваний у КРС (крупного рогатого скота) привели к...

Хабр

Как маскировать персональные данные на изображениях: наш эксперимент с OCR и NER

Всем привет! Меня зовут Андрей Иванов, я NLP-исследователь в R&D red_mad_robot. Мы разрабатываем систему Guardrails для защиты персональных данных (PII) и фильтрации небезопасного контента. В этой статье расскажу, как мы решали задачу точечного маскирования PII на картинках без обучения специальных визуальных детекторов. Разберём связку оптического распознавания символов (OCR) с NER-моделью, покажем метрики на реальных данных, раскроем ограничения подхода и наши решения для их преодоления.

https://habr.com/ru/companies/redmadrobot/articles/1011450/

#ai #llm #ocr #ner #pii #computer_vision #маскирование_данных #обработка_изображений #nlp #rnd

Как маскировать персональные данные на изображениях: наш эксперимент с OCR и NER

Всем привет! Меня зовут Андрей Иванов, я NLP-исследователь в R&D red_mad_robot. Мы разрабатываем систему Guardrails для защиты персональных данных (PII) и фильтрации небезопасного контента. В этой...

Хабр

Как я учил компьютер понимать 122 000 фотографий — и почему сложностью оказались не нейронки, а слова

Я крайне редко на фрилансе получал заказы связанные с DS/ML, специалистов для таких задач обычно ищут не там. Причины разные: они требуют долгой интеграции, заказчик сам не понимает задачу, DS более конфиденциален, DS часто возникают внутри продукта, да и в последнее время этот сегмент на фрилансе съедается при помощи LLM: AI integration, RAG боты например. Но, внезапно, мне в личку постучались с таким проектом.

https://habr.com/ru/articles/1010932/

#computer_vision #machine_learning #clip #embeddings #классификация_изображений #zeroshot_learning #уменьшение_размерности_данных #фриланс #продуктовая_разработка #onnx

Как я учил компьютер понимать 122 000 фотографий — и почему сложностью оказались не нейронки, а слова

Как я вообще туда попал Я крайне редко на фрилансе получал заказы связанные с DS/ML, специалистов для таких задач обычно ищут не там. Причины разные: они требуют долгой интеграции, заказчик сам не...

Хабр

[Перевод] Аугментации изображений: как улучшить качество моделей без новых данных

Аугментация данных — один из самых мощных инструментов улучшения качества моделей машинного обучения. В компьютерном зрении она почти всегда критична: без неё модели быстро переобучаются и плохо обобщаются. Но на практике её часто используют поверхностно: «добавим флип, поворот и color jitter». В этой статье разбираем аугментации глубже: — два режима аугментаций (in-distribution и out-of-distribution) — почему нереалистичные трансформации могут улучшать обобщающую способность — когда аугментации начинают вредить — как строить устойчивый пайплайн аугментаций Материал основан на ~10 годах практики обучения моделей компьютерного зрения (на работе, при написании научных статей, в ML соревнованиях) и ~7 годах разработки библиотеки Albumentations.

https://habr.com/ru/articles/1008560/

#computer_vision #deep_learning #machine_learning #albumentations #нейронные_сети #data_augmentation #image_augmentation #аугментации_изображений #машинное_обучение #компьютерное_зрение

Аугментации изображений: как улучшить качество моделей без новых данных

Примечание: эта статья — перевод страницы документации библиотеки Albumentations . Написана на основе 10 лет опыта в Computer Vision (работа, статьи, ML соревнования), 7 лет из которых я работал над...

Хабр

От OCR до ADE: как машины научились не просто читать, а понимать документы

Ещё 10 лет назад машина видела в документе просто набор пикселей. Сегодня она понимает структуру страницы, читает таблицы, графики и рукописи — и автоматически извлекает нужные данные. Разбираем как это работает под капотом и почему это меняет целые индустрии.

https://habr.com/ru/articles/1008610/

#OCR #машинное_обучение #обработка_документов #LLM #RAG #Python #компьютерное_зрение #computer_vision #aiагенты #vectorization

От OCR до ADE: как машины научились не просто читать, а понимать документы

Представьте что вы получили 500 кредитных заявок. В каждой — паспорт, банковская выписка, справка о доходах, налоговая форма. Всё в PDF. Имена файлов: upload1.pdf , upload2.pdf ... Чтобы обработать их...

Хабр

Наш «домашний» НИИ обошёл DINOv2, ViT и десятки ML‑моделей в сегментации видео

Мы открыли и разрабатываем новый способ обработки информации - TAPe (Theory of Active Perception, Теория активного восприятия). Работаем над ней давно, результаты мягко говоря впечатляющие, постепенно начинаем ими делиться. Немного писали о Теории на Хабре здесь . Исторически мы начали именно с обработки видео (когда-нибудь об этом расскажем). В этой статье покажем результаты сравнения разных методов обработки видео (гистограммы, Фурье, структурной похожести, ML-модели) и TAPe в задаче сегментации видео. TAPe в области компьютерного зрения - это Майк Тайсон и/или Майкл Джордан среди любителей (хорошо, еще не Майк Тайсон, но уже вполне себе Рокки Бальбоа). На фоне методов Теории даже супер прокаченные модели на стероидах растерянно сидят в углу ринга. (Ладно, пока что это все влажные мечты, мы даже еще не вышли толком на ринг; но, как мы помним, главное – это величие замысла). Читать как лажают ML с видео

https://habr.com/ru/articles/1007128/

#машинное_обучение #искусственный_интеллект #dbscan #dinov2 #computer_vision #фурье #sobel #гистограммы #гистограмма_направленных_градиентов #cnn

Наш «домашний» НИИ обошёл DINOv2, ViT и десятки ML‑моделей в сегментации видео

Мы открыли и разрабатываем новый способ обработки информации - TAPe (Theory of Active Perception, Теория активного восприятия). Работаем над ней давно, результаты мягко говоря впечатляющие, постепенно...

Хабр

Edge AI: почти всё о видеокамерах с искусственным интеллектом. Часть 2

Привет, Хабр! Это вторая часть статьи по мотивам доклада реверс-инженера Дмитрия Ильина для прикладной конференции по Data Sience

https://habr.com/ru/companies/oleg-bunin/articles/986066/

#openipc #ai #искусственный_интеллект #видеонаблюдение #Computer_Vision #ML #Edge #оптимизация #hardware

Edge AI: почти всё о видеокамерах с искусственным интеллектом. Часть 2

Привет, Хабр! Это вторая часть статьи по мотивам доклада реверс-инженера Дмитрия Ильина для прикладной конференции по Data Sience Ai Conf 2025 . Дмитрий рассказал о своём проекте OpenIPC , где IPC —...

Хабр

Edge AI: почти всё о видеокамерах с искусственным интеллектом. Часть 1

Привет, Хабр! Эта статья написана по мотивам доклада реверс-инженера Дмитрия Ильина для прикладной конференции по Data Sience

https://habr.com/ru/companies/oleg-bunin/articles/986058/

#OpenIPC #ai #искусственный_интеллект #видеонаблюдение #Computer_Vision #ML_Edge #оптимизация #hardware

Edge AI: почти всё о видеокамерах с искусственным интеллектом. Часть 1

Привет, Хабр! Эта статья написана по мотивам доклада реверс-инженера Дмитрия Ильина для прикладной конференции по Data Sience Ai Conf 2025 . В нём Дмитрий рассказывает о своём многолетнем хобби,...

Хабр

Russtech + Стажеры + ML: история разработки решения для мониторинга цифровых экранов

Всем привет! Меня зовут Никита Крестьянинов, я руководитель группы управления бизнес-процессами служб сервиса в команде Russtech. Сегодня я хочу рассказать, как мы совместно со стажерами разработали ИИ-инструмент, способный отслеживать состояние работы цифровых рекламных конструкций.

https://habr.com/ru/companies/wildberries/articles/1001952/

#машинное_обучение #распознавание_изображений #unet #стажировка #computer_vision #классификация #dooh

Russtech + Стажеры + ML: история разработки решения для мониторинга цифровых экранов

Всем привет! Меня зовут Никита Крестьянинов, я руководитель группы управления бизнес-процессами служб сервиса в команде Russtech (разработчики ведущего российского оператора рекламы вне дома Russ)....

Хабр