Проблемы БД или почему большой продакшн спасут только массовые расстрелы запросов

За счёт правильных, даже необязательно новых, а просто верно выбранных архитектурных подходов можно заставить работать не один конкретный запрос, а тысячу или даже миллион. Это становится краеугольным камнем, потому что объёмы данных растут с такой скоростью, которую мы даже представить себе не могли ещё пять лет назад. Привет, Хабр! Именно так считает наш сегодняшний гость – Дмитрий Немчин, руководитель направления эксплуатации инфраструктуры данных в Т-банке и по совместительству член программного комитета Data Internals , профессиональной конференции
по инженерии, базам и системам хранения и обработки данных. В беседе Дмитрий рассказал о своём пути в данные и программный комитет конференции, поделился интересными кейсами и проблемами, связанными с ростом объёмов данных и необходимостью управления ресурсами. А также объяснил, как дата-инженеру остаться востребованным в будущем, где ИИ может проникнуть абсолютно во все сферы жизни.

https://habr.com/ru/companies/oleg-bunin/articles/915332/

#интервью #greenplum #data_engineering #data_analysis #infrastructure #python #data_bases #data_internals #big_data #big_data_analytics

Проблемы БД или почему большой продакшн спасут только массовые расстрелы запросов

За счёт правильных, даже необязательно новых, а просто верно выбранных архитектурных подходов можно заставить работать не один конкретный запрос, а тысячу или даже  миллион. Это становится...

Хабр

Как мы храним 20000+ метрик и миллиарды комбинаций разрезов в одной таблице

Привет! Меня зовут Влад Божьев, я старший разработчик юнита АБ-тестирования Авито . Один из наших ключевых инструментов – M42, сервис для визуализации метрик. Он позволяет быстро проверять гипотезы, анализировать отклонения и оценивать инициативы. В этой статье мы с вами погружаемся в самое сердце M42 и разбираем, как же там хранятся отчеты по метрикам. Это не просто рассказ, это почти детективная история о том, как мы искали оптимальное решение. В нашем семантическом слое данных больше 20 000 метрик, и есть десятки разрезов для каждой из них. Под катом рассказываю, как мы храним терабайты данных и автоматизируем добавление новых разрезов в отчёт M42.

https://habr.com/ru/companies/avito/articles/913694/

#M42 #bigdata #clickhouse #python #data_analysis #data_engineering #data_structures #storage #adhocанализ #adhoc

Как мы храним 20000+ метрик и миллиарды комбинаций разрезов в одной таблице

Привет! Меня зовут Влад Божьев, я старший разработчик юнита АБ-тестирования Авито . В нашей команде мы ежедневно работаем с по-настоящему большими объёмами данных – это не просто фигура речи, это наша...

Хабр

Как пройти собеседование: опыт аналитика Яндекс Лавки

Привет, Хабр! Меня зовут Рафаэль Сайфутдинов, но обычно меня зовут просто Раф. Я работаю аналитиком ценообразования в Яндекс Лавке, выпускаюсь из НИУ ВШЭ и уже успел пройти курс

https://habr.com/ru/companies/yandex_praktikum/articles/902750/

#аналитика #аналитик_данных #анализ_данных #data_analysis

Как пройти собеседование: опыт аналитика Яндекс Лавки

Привет, Хабр! Меня зовут Рафаэль Сайфутдинов, но обычно меня зовут просто Раф. Я работаю аналитиком ценообразования в Яндекс Лавке, выпускаюсь из НИУ ВШЭ и уже успел пройти курс «Специалист по Data...

Хабр

Full-stack в аналитике: почему это будущее Data Science?

Привет. Представьте: вы запилили нейросеть, которая определяет котиков на фото с точностью 99.9% (оставшиеся 0.1% — это когда хомяк притворяется котом). Воодушевлённый результатом, бежите к руководству — а там оказывается, что:

https://habr.com/ru/articles/904376/

#data_science #data_analysis #python #бекенд #фронтенд #ml #javascript

Full-stack в аналитике: почему это будущее Data Science?

Привет! Это моя первая статья на Хабре, так что тапки прошу кидать мягкие (или хотя бы плюшевые). Поговорим о том, почему сегодня быть full-stack дата-сайентистом — не просто модно, а жизненно...

Хабр

Контролируем качество данных с помощью Python

В работе с данными одной из самых больших трудностей является обеспечение их качества. В процессе анализа и обработки информации приходится сталкиваться с множеством проблем, таких как отсутствие нужных значений, неправильно отформатированные данные или ошибки, появляющиеся при сборе данных с веб-ресурсов. В этой статье мы рассмотрим, как с помощью Python можно автоматизировать процесс проверки и очистки данных, используя популярные библиотеки, такие как pandas и pyspark. Мы исследуем практические подходы к подготовке данных для анализа, включая поиск аномалий, постобработку и работу с пустыми значениями, что поможет обеспечить высокое качество данных для дальнейших исследований и принятия решений.

https://habr.com/ru/companies/otus/articles/903634/

#qa #data_analysis #качество_данных #аналитика_данных #Python_для_анализа_данных #pandas #Pyspark #Очистка_данных #Аномалии_в_данных

Контролируем качество данных с помощью Python

Сегодня мы будем говорить о не совсем обычном тестировании. Уточнение собранных данных — большая головная боль для специалистов по анализу данных и аналитиков. Большинство...

Хабр
Llama 4 smells bad - FastML

Meta has distinguished itself positively by releasing three generations of Llama, a semi-open LLM with weights available if you ask nicely (and …

Как создать инструмент для DQ только на Python и Airflow?

Всем привет! Меня зовут Павел, я главный аналитик данных управления подготовки данных Банка. В этой статье я расскажу, как мы создали самописный инструмент и библиотеку для проверок качества данных, используя только Python и Airflow, и какую пользу это принесло команде.

https://habr.com/ru/companies/gazprombank/articles/896814/

#dq #python #airflow #superset #data_engineering #data_analysis #data_quality

Как создать инструмент для DQ только на Python и Airflow?

Всем привет! Меня зовут Павел, я главный аналитик данных управления подготовки данных Банка. В финтехе цена ошибки в данных может быть огромной, особенно когда объемы этих данных растут. У нас...

Хабр

Великий и могучий: как мы учим нашу систему находить нецензурную лексику в ФИО

Привет, Хабр! Меня зовут Макс Траулько, я занимаюсь анализом данных и проработкой новый фичей в команде RnD в HFLabs. Прямо сейчас я работаю над нетривиальной задачей — учу наши алгоритмы распознавать в именах и фамилиях русский мат и прочие ругательства. Как появилась эта задача? В одной крупной компании клиенты могут оставить обращения во фронт-системе. И иногда пишут в полях ФИО, прямо скажем, черт знает что. А у бизнеса риски: если при ответе на обращение автоматически использовать данные из поля «Имя», можно стать героем насмешливых или гневных постов. Чуть раньше с такой же проблемой к нам пришел другой клиент, из ретейла. У того клиенты вообще большие выдумщики — придумывают составные и сложные имена и фамилии с обсценной лексикой. Даже жаль, что показать эти примеры не можем. В статье расскажу, как мы решаем эту задачу.

https://habr.com/ru/companies/hflabs/articles/896436/

#качество_данных #стандартизация #ругательства #персональные_данные #mdm #data_analysis #data_governance #алгоритмы

Великий и могучий: как мы учим нашу систему находить нецензурную лексику в ФИО

Привет, Хабр! Меня зовут Макс Траулько, я занимаюсь анализом данных и проработкой новых фич в команде RnD в HFLabs. Прямо сейчас я работаю над нетривиальной задачей — учу наши алгоритмы распознавать в...

Хабр

Байесовская собака: анализ пёсьего компаса

Ориентируются ли собаки по компасу, когда делают свои грязные дела? Оказывается — да! Если вам интересно, как можно это подтвердить в домашних условиях, используя компас, Байесовскую статистику и собаку (собака не включена), то добро пожаловать под кат.

https://habr.com/ru/articles/895332/

#python #data_analysis #bayesian #tutorial #dog #pymc3

Байесовская собака: анализ пёсьего компаса

tl;dr Ориентируются ли собаки по компасу, когда делают свои грязные дела? Оказывается — да! Если вам интересно, как можно это подтвердить в домашних условиях, используя компас, Байесовскую статистику...

Хабр

Повышение эффективности аналитических баз данных: кейс «Комус» и Arenadata

Хабр, привет! Современные высоконагруженные системы требуют точной настройки и регулярного мониторинга, чтобы обеспечить стабильную производительность в условиях постоянно растущих объёмов данных. Когда речь идёт о крупной аналитической базе данных, развёрнутой в облачной среде, оптимизация её работы становится критически важной задачей. В прошлой статье мы уже рассказывали о типичных ошибках при работе с Arenadata DB (ADB), о том, как их избежать и значительно повысить производительность кластера. Сегодня же поделимся реальным опытом на примере компании «Комус» — лидера в области B2B-ритейла, которая обратилась к Arenadata за проведением комплексного аудита своего кластера ADB. В этой статье мы детально разобрали, как с помощью анализа и оптимизации удалось выявить точки роста, подготовить кластер к текущим и будущим нагрузкам и предложить план улучшений. Мы рассмотрим технические детали аудита, проблемы, с которыми пришлось столкнуться, и эффективные практики, позволившие повысить производительность аналитической базы данных. Что там с нагрузкой на кластер?

https://habr.com/ru/companies/arenadata/articles/887792/

#arenadata_db #оптимизация_базы_данных #etl #высоконагруженные_системы #highload #партиционирование #аудит #data_analysis #базы_данных #аналитические_базы_данных

Повышение эффективности аналитических баз данных: кейс «Комус» и Arenadata

Хабр, привет! Современные высоконагруженные системы требуют точной настройки и регулярного мониторинга, чтобы обеспечить стабильную производительность в условиях постоянно растущих объёмов данных....

Хабр