데이터 기반 제품 설계: 심미적 개선을 넘어 비즈니스 가치에 집중하는 법
제품 리디자인의 목적은 단순한 심미적 개선이 아니라 현재 올바른 제품을 구축하고 있는지 데이터로 검증하는 과정이어야 한다.
데이터 기반 제품 설계: 심미적 개선을 넘어 비즈니스 가치에 집중하는 법
제품 리디자인의 목적은 단순한 심미적 개선이 아니라 현재 올바른 제품을 구축하고 있는지 데이터로 검증하는 과정이어야 한다.
Как оценивать ИИ-агентов в проде: нижняя планка, трассы и кодовые проверки
Если агент уже ходит в инструменты, читает документы, меняет состояние системы и принимает часть решений сам, проверка одного промпта почти ничего не говорит о надежности. Нужно смотреть на весь путь: вход, найденный контекст, вызовы инструментов, промежуточные состояния, итоговый ответ и побочные эффекты. Ниже - рабочая схема, как строить такие проверки до релиза и после выхода в прод.
https://habr.com/ru/articles/1040756/
#eval #ai #aiагенты #llm #тестирование #data_analysis #агенты_в_продакшене #агенты_ии #трассировка #harness_engineering
Семантический слой: архитектура, подходы и роль в эпоху AI-аналитики
Привет, Хабр! В последние годы все чаще в разговорах про современные дата-платформы звучит термин «семантический слой». Сама идея семантического слоя не нова: в разные годы под семантикой понимали и витрины данных, и презентационный слой хранилища, и пространства метрик внутри BI-платформ. Но развитие современных дата-платформ и появление AI-агентов заставляют заново переосмыслить этот концепт. Несмотря на очевидный интерес к теме семантического слоя, чёткого понимания, что именно он из себя представляет, как устроен изнутри и зачем вообще нужен, пока нет. В этой статье мы разберемся, что такое семантический слой, какие задачи он решает, какие архитектурные подходы существуют и почему именно семантический слой может стать ключевым драйвером AI-аналитики. Семантический слой представляет собой промежуточный логический слой между областью физического хранения данных и каналами потребления данных: аналитическими приложениями, BI-системами, AI-агентами и бизнес-пользователями. В разных источниках его также называют Metrics Layer или Headless BI. Говоря более строгим языком, семантический слой - это единый исполняемый контракт метрик, измерений, связей между сущностями и правил доступа для всех каналов потребления данных. Одинаковый результат обеспечивается не тем, что описание показателя где-то задокументировано, а тем, что логика его расчета централизована и исполняется самим семантическим слоем . В семантической модели задаются бизнес-термины, метрики, измерения, связи между сущностями, правила фильтрации, агрегации и доступа. Когда BI, Excel или AI-агент обращаются к семантическому слою, расчет собирается на основе метаданных модели внутри самого семантического слоя.
https://habr.com/ru/companies/axenix/articles/1040468/
#семантический_слой #semantic_layer #ai #genai #модель_данных #data_analysis #data_modeling
Ускоряем и оптимизируем numpy, pandas, scipy и sklearn
С момента публикации статьи на Хабре « Импортозамещаем numpy, pandas, scipy и sklearn » прошло почти три года. В течение этого времени я приостановил работу над проектом из-за нехватки времени, ресурсов и сил. К тому же, меня расстроило, что не смог выполнить просьбу пользователя @N-Cube , который активно интересовался моей библиотекой и хотел ускорить работу своего Jupyter Notebook. В самый критический момент на помощь пришел волшебный AI, который, хоть и иногда проявлял недостаток гибкости, с готовностью исполнял все пожелания своего хозяина. Благодаря этому проект начал продвигаться вперед. За это время в библиотеки были добавлены поддержка CUDA, множество ручных SIMD-оптимизаций с динамическим выбором SIMD, несколько реализаций линейной регрессии и многое другое. Давайте рассмотрим, что на сегодняшний день позволяет сделать моя библиотека. Я представлю несколько тестовых примеров в двух вариантах: с использованием AVX-2 на процессоре Intel® Core™ i7-4790K и AVX-512 на Intel® Xeon. Также покажу результаты замеров для каждого из них. Все тесты проводились без использования GPU, исключительно на процессоре. Это позволяет сравнивать производительность Python и моей библиотеки на равных условиях. Операционная система – Ubuntu 24.04, компилятор – GNU 13.3.0.
https://habr.com/ru/articles/1039866/
#C++ #numpy #pandas #scipy #sklearn #opensource #datascience #data_analysis
Как и зачем мы писали семантический слой для ИИ аналитики – SLayer
Казалось бы, что может быть проще: даёшь LLM доступ к БД и просишь написать тебе нужный SQL! Но на практике и ИИ, и человек быстро сталкиваются с одинаковыми проблемами – взрывом кардинальности при JOIN’ах, ошибками в гранулярности, сложными подзапросами и отсутствием понятного бизнес-контекста. Рассказываем, зачем и как мы проектировали семантический слой для детерминированной аналитики и адекватной работы ИИ-агентов с данными. Давайте разбираться!
https://habr.com/ru/articles/1033144/
#semantic_layer #python #analytics #data_analysis #mcp #claudecode #gpt #ai #ииагенты #базы_данных
NumPy с нуля: понятный гайд для тех, кто хочет в Data Science
Стандартные списки в Python прекрасны своей гибкостью, но когда дело доходит до больших данных и математики, они превращаются в медленных черепах. 🐢 Подготовил для вас максимально практичный гайд: «NumPy с нуля до понимания за 1 статью». Никакой академической воды — только база для быстрого старта в Data Science и аналитике.
https://habr.com/ru/articles/1029440/
#numpy #numpy_datascience #python #python3 #python_для_начинающих #python_tutor #data_science #data_analysis
Метрики упали в лужу
Метрики могут «упасть» даже если вы ничего не меняли в модели. Разбираемся, как распознать distribution shift и что с ним делать в продакшене.
https://habr.com/ru/articles/1024380/
#eda #анализ_данных #мониторинг #статистика #предобработка_данных #pandas #data_science #machine_learning #data_analysis #production
Обзор книг для анализа данных
Я аналитик данных и люблю бумажный формат книг (если есть сомнения, сначала пробую электронную версию, но если книга заходит всегда потом беру бумажную). В этой статье честный обзор, без рекламы, тех книг, которые я купила не так давно в бумажном формате.
https://habr.com/ru/articles/1007024/
#анализ_данных #алгоритмы #python #книги_для_аналитика #data_science #data_analysis #обзор_книг #грокаем #грокаем_алгоритмы #аналитика
Ускоряем pandas, не переписывая код. Мой опыт с FireDucks
Привет! Меня зовут Егор Лукьянов, я старший аналитик данных в Ozon Tech. В своей работе я часто сталкиваюсь с проблемой масштабируемости в pandas . Код, который быстро работает на гигабайте данных, начинает невыносимо тормозить на десяти. Уверен, эта боль знакома многим. Сейчас есть быстрые альтернативы, например, Polars . Я сам пробовал переводить на него свои проекты. Скорость действительно впечатляет, но как в анекдоте есть нюанс: приходится переписывать чуть ли не весь код и привыкать к новому синтаксису. А это большая работа, на которую не всегда есть время. И вот здесь я наткнулся на FireDucks — библиотеку, которая обещает решить эту проблему, просто заменив одну строку импорта. Звучало слишком хорошо, чтобы быть правдой. После опыта с Polars я был уверен, что где-то должен быть подвох. Я решил проверить FireDucks на нескольких типичных задачах. В этой статье я хочу без лишнего хайпа поделиться тем, что у меня получилось. Мы посмотрим на реальные примеры кода, сравним скорость и разберёмся, где эта библиотека действительно хороша, а где могут быть проблемы.
BI-аналитик: стартовый пакет необходимых навыков
Расскажу какие навыки потребуются, чтобы начать свой карьерный путь в качестве BI-аналитика, и поделюсь ресурсами, которые помогут прокачать эти навыки. Подборка из статьи будет полезна и начинающим специалистам, и профи - для увеличения кругозора.
https://habr.com/ru/articles/1004298/
#sql #redash #tableau #data #data_analysis #visualization #reporting #визуализация #видео #dashboard