Как научить плейлист-генератор не лезть с персонализацией куда не просят

Статья о том, почему «лучшие хиты Queen» и «что-нибудь под пробежку» – это принципиально разные запросы, и что с этим делать ML-инженеру музыкального стриминга Работа принята на EACL 2026 Workshop NLP4MusA. Авторы: Фёдор Бузаев, Ринат Муллахметов, Роман Богачёв, Илья Седунов, Олег Павлович, Камиль Мазитов, Дарья Пугачёва, Иван Сухарев (Zvuk, AIRI, НИУ ВШЭ, Иннополис).

https://habr.com/ru/companies/zvuk/articles/1012636/

#персонализация #персонализация_контента #ai #machine_learning #deep_learning #машинное_обучение #глубинное_обучение

Как научить плейлист-генератор не лезть с персонализацией куда не просят

Статья о том, почему «лучшие хиты Queen» и «что-нибудь под пробежку» – это принципиально разные запросы, и что с этим делать ML-инженеру музыкального стриминга Представьте: вы включаете умную колонку...

Хабр

Предиктивная аналитика для начинающих: немного теории, истории ML-инженеров и советы, как искать проекты

Бизнес генерирует данные: клики по рекламе, история транзакций, поведение пользователей в приложениях, измерения датчиков на производстве. Предиктивная аналитика — это процесс использования этих данных для построения прогнозов. В его основе — идея, что в событиях прошлого есть закономерности, которые с некоторой вероятностью повторятся в будущем. Это можно использовать, чтобы предсказать отток клиентов, оптимизировать маркетинговые бюджеты, спрогнозировать спрос или даже подобрать оптимальное лечение. Мы поговорили с тремя специалистами по машинному обучению и data science (ML/DS) и попросили их рассказать о своём пути и проектах. А в конце собрали советы для тех, кто хочет начать свой путь в data science: какие навыки качать, где брать опыт и к чему готовиться на собеседованиях.

https://habr.com/ru/companies/netologyru/articles/1010924/

#предиктивная_аналитика #модель_предсказания #математические_модели #машинное+обучение #mlинженер #дата_саентист #machine_learning #аналитика_данных #закономерности_в_данных #алгоритм_обучения

Предиктивная аналитика для начинающих: немного теории, истории ML-инженеров и советы, как искать проекты

Бизнес генерирует данные: клики по рекламе, история транзакций, поведение пользователей в приложениях, измерения датчиков на производстве. Предиктивная аналитика — это процесс использования этих...

Хабр

Разнообразие нейронных сетей: Обзор основных задач

В этой статье вы увидите, как нейросети решают совершенно разные задачи. Мы создадим свои собственные нейросети на PyTorch и протестируем их на реальных данных: - Распознавание одежды по черно-белым картинкам - Анализ тональности текста - Классификация растений по их характеристикам

https://habr.com/ru/articles/883186/

#python #data_science #neural_network #искусственный_интеллект #машинное_обучение #pytorch #machine_learning

Разнообразие нейронных сетей: Обзор основных задач

Введение В современном мире данные становятся всё более сложными, а нейронные сети предлагают мощные и гибкие инструменты для работы с ними. Эта статья посвящена обзору ключевых задач, в которых...

Хабр

Как я учил компьютер понимать 122 000 фотографий — и почему сложностью оказались не нейронки, а слова

Я крайне редко на фрилансе получал заказы связанные с DS/ML, специалистов для таких задач обычно ищут не там. Причины разные: они требуют долгой интеграции, заказчик сам не понимает задачу, DS более конфиденциален, DS часто возникают внутри продукта, да и в последнее время этот сегмент на фрилансе съедается при помощи LLM: AI integration, RAG боты например. Но, внезапно, мне в личку постучались с таким проектом.

https://habr.com/ru/articles/1010932/

#computer_vision #machine_learning #clip #embeddings #классификация_изображений #zeroshot_learning #уменьшение_размерности_данных #фриланс #продуктовая_разработка #onnx

Как я учил компьютер понимать 122 000 фотографий — и почему сложностью оказались не нейронки, а слова

Как я вообще туда попал Я крайне редко на фрилансе получал заказы связанные с DS/ML, специалистов для таких задач обычно ищут не там. Причины разные: они требуют долгой интеграции, заказчик сам не...

Хабр

Как обнаружить заказной негатив с помощью скриптов

По данным Data Insight 30% отказов от покупок связано с заказным негативом. Раньше ботов вычисляли по шаблонным фразам, но сейчас спамеры массово генерируют жалобы через LLM. Модерация геосервисов пропускает такой контент. Формально отзывы уникальны и не нарушают правила площадок. Ручная проверка тысяч комментариев требует десятков часов работы аналитика и не исключает человеческий фактор. Визуально отличить качественный фейк от мнения реального клиента стало невозможно. Противостоять генеративным сетям можно только программными методами. Автоматизировать поиск аномалий в поведении пользователей помогают скрипты на Python. Этот контур защиты включает парсинг данных с обходом лимитов API, вычисление временных выбросов через Z-оценку и семантический анализ текстов с учетом морфологии русского языка (через библиотеку Natasha ). Это базовый алгоритм, который позволяет перевести защиту репутации из ручной разметки в измеримый технический процесс.

https://habr.com/ru/articles/1010014/

#python #zscore #machine_learning #анализ_отзывов #боты #антифрод #репутация #фейковые_отзывы #геосервисы #парсинг_сайтов

Как обнаружить заказной негатив с помощью скриптов

По данным Data Insight 30% отказов от покупок связано с заказным негативом. Раньше ботов вычисляли по шаблонным фразам, но сейчас спамеры массово генерируют жалобы через LLM. Модерация геосервисов...

Хабр

SLAY-ASR, или как я перестал волноваться и полюбил тренировать модели

Как добавить аудио-модальность в LLMку максимально экономно? Рассказываю про серию попыток добиться совместимости эмбеддингов разной природы Погрузиться

https://habr.com/ru/articles/1009614/

#representation_learning #multimodality #multimodal_llm #machine_learning #audiomodality #regularization #contrastive_learning #whisper #gemma3

SLAY-ASR, или как я перестал волноваться и полюбил тренировать модели

Как добавить аудио-модальность в LLMку максимально экономно? Рассказываю про серию попыток добиться совместимости эмбеддингов разной природы. ...Зачем? Изначально этот проект был лишь одной задачкой в...

Хабр

От MNIST к Transformer. Часть 3. Умножение тензоров. Пишем Linear Layer

Мы живем в эпоху, когда ИИ стал доступен каждому. Но за магией PyTorch скрывается колоссальная инженерная работа и сложные вычислительные процессы, которые для большинства остаются черным ящиком. Это третья статья из цикла От MNIST к Transformer , цель которого пошагово пройти путь от простого CUDA ядра до создания архитектуры Transformer - фундамента современных LLM моделей. Мы не будем использовать готовые высокоуровневые библиотеки. Мы будем разбирать, как все устроено под капотом, и пересобирать их ключевые механизмы своими руками на самом низком уровне. Только так можно по настоящему понять как работают LLM и что за этим стоит. В этой статье мы перейдем от матриц к такому понятию как тензоры, напишем умножение тензоров, так же создадим свой первый линейный слой или полно-связную нейронную сеть. И наконец напишем сеть для распознования mnist датасета. Приготовьтесь, будет много кода на C++ и CUDA, работы с памятью и погружения в архитектуру GPU. И конечно же математика что за этим стоит. Поехали!

https://habr.com/ru/articles/1008948/

#cuda #c++ #machine_learning #programming #math

От MNIST к Transformer. Часть 3. Умножение тензоров. Пишем Linear Layer

Мы живем в эпоху, когда ИИ стал доступен каждому. Но за магией  PyTorch  скрывается колоссальная инженерная работа и сложные вычислительные процессы, которые для большинства остаются черным...

Хабр

[Перевод] Аугментации изображений: как улучшить качество моделей без новых данных

Аугментация данных — один из самых мощных инструментов улучшения качества моделей машинного обучения. В компьютерном зрении она почти всегда критична: без неё модели быстро переобучаются и плохо обобщаются. Но на практике её часто используют поверхностно: «добавим флип, поворот и color jitter». В этой статье разбираем аугментации глубже: — два режима аугментаций (in-distribution и out-of-distribution) — почему нереалистичные трансформации могут улучшать обобщающую способность — когда аугментации начинают вредить — как строить устойчивый пайплайн аугментаций Материал основан на ~10 годах практики обучения моделей компьютерного зрения (на работе, при написании научных статей, в ML соревнованиях) и ~7 годах разработки библиотеки Albumentations.

https://habr.com/ru/articles/1008560/

#computer_vision #deep_learning #machine_learning #albumentations #нейронные_сети #data_augmentation #image_augmentation #аугментации_изображений #машинное_обучение #компьютерное_зрение

Аугментации изображений: как улучшить качество моделей без новых данных

Примечание: эта статья — перевод страницы документации библиотеки Albumentations . Написана на основе 10 лет опыта в Computer Vision (работа, статьи, ML соревнования), 7 лет из которых я работал над...

Хабр

Как я поймал Трансформер на читерстве: гроккинг, математика и Mechanistic Interpretability

Феномен Grokking и Mechanistic Interpretability — главные тренды в исследованиях лабораторий уровня OpenAI и Anthropic. Я решил потрогать эти концепции своими руками на уровне тензоров. Цель казалась тривиальной: заставить кастомный микро-Трансформер (всего 1М параметров) выучить базовую арифметику с нуля. Однако вместо математического гения я получил ленивого мошенника. Эта статья — инженерный детектив о том, как нейросети пытаются нас обмануть (Specification Gaming), и как вскрытие Attention-матриц помогает поймать их за руку. Вскрыть Трансформер

https://habr.com/ru/articles/1008656/

#machine_learning #transformers #grokking #mechanistic_interpretability #pytorch #specification_gaming #ai_alignment

Как я поймал Трансформер на читерстве: гроккинг, математика и Mechanistic Interpretability

Феномен  Grokking  и  Mechanistic Interpretability  — главные тренды в исследованиях лабораторий уровня OpenAI и Anthropic. Я решил потрогать эти концепции своими руками на уровне...

Хабр

Как мы научились честно считать эффект промокодов: Causal Inference в онлайн-доставке X5 Digital

Сегодня расскажу о модели, которую мы построили для оценки реального эффекта промокодов. Главные вопросы: кому, какой, и зачем мы выдаем промокод. Спойлер: ответ нас удивил. И именно этот ответ стал главной причиной, по которой эту модель вообще стоило строить. Представьте стандартный отчёт по промокампании: «Пользователи, применившие промокод, потратили на 800 рублей больше среднего». Бизнес доволен, маркетинг рапортует об успехе. Но подождите, а сколько из них потратили бы эти деньги и без промокода? Это не риторический вопрос. Это принципиальная проблема, которая называется selection bias — систематическая ошибка отбора.

https://habr.com/ru/companies/X5Tech/articles/1005410/

#causal_inference #differenceindifference #propensity_score_matching #uplift_modeling #a_b_testing #counterfactual_learning #catboost #machine_learning #data_science #python

Как мы научились честно считать эффект промокодов: Causal Inference в онлайн-доставке X5 Digital

Привет, Хабр! Меня зовут Кореньков Александр, и я работаю в команде «Выгода и вовлечение» в направлении продуктовой аналитики онлайн-доставки в компании X5 Digital. Занимаюсь машинным обучением на...

Хабр