Особенности Schema Evolution в Hadoop: как сделать alter table

Привет, Хабр! Меня зовут Ольга Косарева, я инженер данных команды «Прогнозирование финансового результата» Центра разработки решений ALM в ИТ‑холдинге Т1, мы занимаемся созданием современной ALM‑системы (подробнее тут ). Полтора года назад я пришла в команду и получила задачу дописать и внедрить инструмент для DDL‑операций над данными в экосистеме Hadoop. Моя первая реакция была: «А зачем так сложно? Какой инструмент? Почему нельзя просто выполнить команду ALTER TABLE через Hive?» В этой статье мы с коллегами Никитой Королёвым и Алексеем Пожар расскажем, в каких случаях целесообразно именно так и сделать, а в каких это приведёт к различным проблемам с данными, что такое Schema Evolution и как мы решаем задачу периодического изменения структур таблиц с нашими отчётами.

https://habr.com/ru/companies/T1Holding/articles/1000516/

#hadoop #hive #alter_table #DDL #ALM

Особенности Schema Evolution в Hadoop: как сделать alter table

Привет, Хабр! Меня зовут Ольга Косарева, я инженер данных команды «Прогнозирование финансового результата» Центра разработки решений ALM в ИТ‑холдинге Т1, мы занимаемся созданием современной...

Хабр

Hue для домашнего Hadoop: Docker, CSRF и неочевидные грабли

Пятая статья цикла о построении CDC-пайплайна с нуля. HDFS и Hive работают, но управлять ими через консоль неудобно. Сегодня поднимаем веб-интерфейс Hue и разбираемся, почему в 2026 году сборка из исходников требует Python 2.7.

https://habr.com/ru/articles/996646/

#hue #hadoop #hive #postgresql #python #filesystem

Hue для домашнего Hadoop: Docker, CSRF и неочевидные грабли

Пятая статья цикла о построении CDC-пайплайна с нуля. HDFS и Hive работают, но управлять ими через консоль неудобно. Сегодня поднимаем веб-интерфейс Hue и разбираемся, почему в 2026 году сборка из...

Хабр

HDFS и Hive для CDC: строим хранилище данных в домашней лаборатории

Четвёртая статья цикла о построении CDC-пайплайна с нуля. Данные уже текут из PostgreSQL в Kafka — пора их куда-то складывать. Сегодня поднимаем Hadoop и Hive, и разбираемся, почему Hive 3.1.3 не дружит с Java 11.

https://habr.com/ru/articles/994062/

#hadoop #hive #sql #postgresql #cdc #logical_replication #devops #data_engineering

HDFS и Hive для CDC: строим хранилище данных в домашней лаборатории

Четвёртая статья цикла о построении CDC-пайплайна с нуля. Данные уже текут из PostgreSQL в Kafka — пора их куда-то складывать. Сегодня поднимаем Hadoop и Hive, и разбираемся, почему Hive 3.1.3 не...

Хабр
Is this a #Hadoop reference?
🤔
So apparently, if you're still using #Hadoop in 2014, congrats on your commitment to #nostalgia. 🎩 Why waste time on 235 elephants when a single command-line #ninja can do the job faster? 🚀✨ Enjoy your #EMR toy, but maybe keep that "cool article" on the backburner for when you need a chuckle. 😂
https://adamdrake.com/command-line-tools-can-be-235x-faster-than-your-hadoop-cluster.html #CommandLine #Humor #TechTrends #HackerNews #ngated
Adam Drake

Adam Drake is an advisor to scale-up tech companies. He writes about ML/AI/data, leadership, and building tech teams.

Adam Drake

Искусственный интеллект без иллюзий: как не сжечь бюджет компании на хайпе (Часть 2)

Это вторая часть цикла публикаций, где мы говорим не о теории искусственного интеллекта, а о суровой реальности его внедрения в бизнес. В первой части мы обсуждали стратегические ловушки ( https://habr.com/ru/articles/969094/ ), а теперь настал черед уровня данных, который оказался для нас минным полем.

https://habr.com/ru/articles/974288/

#llm #hadoop #data_mesh

Искусственный интеллект без иллюзий: как не сжечь бюджет компании на хайпе

Конечно, существуют и успешные кейсы внедрения ИИ в бизнес, но даже в удачных случаях всё не так гладко. Успешное внедрение всегда сопряжено с множеством оговорок и допущений. Эта статья будет...

Хабр

Файловое хранилище Wildberries: бескомпромиссный HighLoad

Привет, меня зовут Иван Волков, я CTO продукта CDN MediaBasket в Wildberries. Это большое распределенное файловое хранилище, используемое различными внутренними продуктами Wildberries. Одним из продуктов, с которым взаимодействуют внешние клиенты, является каталог товаров. Это ставит перед хранилищем высокую планку по оптимизации и готовности к экстремальным нагрузкам. В этой статье я расскажу, какие решения мы использовали в архитектуре продукта и как при миллионном RPS мы доставляем картинки пользователям за считанные миллисекунды.

https://habr.com/ru/companies/wildberries/articles/967988/

#файловое_хранилище #шардирование #шардинг #highload #хайлоад #схд #ceph #hadoop #wildberries #drpaster

Файловое хранилище Wildberries: бескомпромиссный HighLoad

Привет, меня зовут Иван Волков, я CTO продукта CDN MediaBasket в Wildberries. Это большое распределенное файловое хранилище, используемое различными внутренними продуктами Wildberries. Одним из...

Хабр

Data Science Roadmap 2025 | Become a Data Scientist from Scratch! #datascienceinstitute #hadoop

Data Science Roadmap 2025 | Become a Data Scientist from Scratch! --- Description: Want to become a Data Scientist in 2025? source

https://quadexcel.com/wp/data-science-roadmap-2025-become-a-data-scientist-from-scratch-datascienceinstitute-hadoop/

Data Science Roadmap 2025 | Become a Data Scientist from Scratch! #datascienceinstitute #hadoop - QuadExcel.com

Data Science Roadmap 2025 | Become a Data Scientist from Scratch! --- Description: Want to become a Data Scientist in 2025? source

QuadExcel.com

Добавляем MapReduce в этот наш SQL: генераторы на основе курсоров

Вот уже который год я потихоньку разрабатываю SQL-ный движок на основе Apache Spark, специализированный под задачи ETL. И хотя диалект языка изначально называется «Transform Definition Language», писать трансформации данных непосредственно на нём самом было до сих пор невозможно. Вместо этого на фазе Transform предполагалось использовать подключаемые модули, которые рантайм интерпретатора предоставляет из Java classpath. Это очень эффективный с точки зрения производительности, но довольно долгий с точки зрения внедрения, и дорогой в разработке способ. Сначала трансформацию надо описать формально в виде статьи-whitepaper'а (это делает data scientist), потом написать прототип на Python (ответственность data analyst), отладиться на сэмпле реальных данных (тоже аналитик), и тогда уже делать и оптимизировать финальную имплементацию на Java с использованием низкоуровневого API Spark (собственно, задача разработчика). Неудобно. Нельзя ли его как-нибудь сократить? Например, дать аналитикам инструмент для написания трансформаций непосредственно в самом SQL, вынеся некоторую часть функциональности MapReduce как разновидность итерирующих функций? Можно, конечно! Давайте узнаем, как именно

https://habr.com/ru/articles/958362/

#sql #etl #apache_spark #java #hadoop #big_data #big_data_solutions #big_data_tools #интерпретатор

Добавляем MapReduce в этот наш SQL: генераторы на основе курсоров

Вот уже который год я потихоньку разрабатываю SQL-ный движок на основе Apache Spark, специализированный под задачи ETL. И хотя диалект языка изначально называется «Transform Definition Language»,...

Хабр

Бенчмарк бенчмарка Lakehouse-движков, в котором побеждает объективная реальность

Недавно на хабре вышла статья с громким заголовком “Бенчмарк lakehouse-движков, часть 1: StarRocks и Doris падают под нагрузкой, Presto аутсайдер, CedrusData быстрее всех”. В своей статье авторы из Кверифай Лабс выбрали методику TPC-DS, но вместо 99 запросов остановилась на одном, который к тому же запускается на одной машине. Обосновывается это тем, что на одном конкретном запросе нужно разобрать работу оптимизаторов. По результатам исследования делается вывод, что решение, разработанное авторами, является лучшим, в том числе для запуска одного конкретного запроса на одном узле. Давайте попробуем разобраться, действительно ли это так.

https://habr.com/ru/companies/datasapience/articles/964052/

#starrocks #trino #impala #mpp #bigdata #dwh #lakehouse #datalake #s3 #hadoop

Бенчмарк бенчмарка Lakehouse-движков, в котором побеждает объективная реальность

Недавно на хабре вышла статья с громким заголовком “Бенчмарк lakehouse-движков, часть 1: StarRocks и Doris падают под нагрузкой, Presto аутсайдер, CedrusData быстрее всех”. В своей статье авторы из...

Хабр