Open Table Formats — Iceberg vs Paimon — практика использования

Привет, Хабр. Меня зовут Василий Мельник, я product owner решения для потоковой обработки данных Data Ocean SDI в компании Data Sapience. Наша команда приобрела большой практический опыт работы с Apache Iceberg в задачах на стыке традиционной пакетной обработки и near real-time и конкретно с использованием технологий на базе Flink, поэтому мы не могли пройти мимо нового открытого табличного формата (OTF) Paimon от разработчиков Apache Flink. В этой статье я опишу наш опыт и те практические выводы, которые мы сделали на промышленных средах, в виде репрезентативного тестирования, на котором проиллюстрирую ключевые практические сценарии.

https://habr.com/ru/companies/datasapience/articles/988308/

#iceberg #Paimon #Open_Table_Format #тесты_производительности #flink #spark

Open Table Formats — Iceberg vs Paimon — практика использования

Привет, Хабр. Меня зовут Василий Мельник, я product owner решения для потоковой обработки данных Data Ocean SDI в компании Data Sapience. Наша команда приобрела большой практический опыт работы с...

Хабр

I've started using (generated) click tracking events as a data source when introducing #FlinkSQL - it's simple, yet still rich enough to let me explain a variety of nice #Flink features.

I've written up a few examples at https://dalelane.co.uk/blog/?p=5806

Flink SQL examples with click tracking events

In this post, I introduce a few core Flink SQL functions using worked examples of processing a stream of click tracking events from a retail website. I find that a practical, real-world (ish) example can help to explain how to use Flink SQL in a way that abstract descriptions, such as processing co

dale lane

Bij #TacoMundo besteld en nu aan het duimen dat ze ook langskomen. #Flink liet me laatst eerst voor mijn boodschappen betalen om daarna toch maar de bestelling te annuleren. #AlbertHeijn en #Picnic leveren pas met Sint Juttemis.

Zou Taco Mundo ook in de categorie "noodpakket" vallen?

#sneeuw

𝗙𝗹𝗶𝘁𝘀𝗯𝗲𝘇𝗼𝗿𝗴𝗲𝗿 𝗙𝗹𝗶𝗻𝗸 𝘀𝗹𝘂𝗶𝘁 𝗹𝗼𝗰𝗮𝘁𝗶𝗲𝘀 𝗱𝗼𝗼𝗿 𝘀𝗻𝗲𝗲𝘂𝘄, 𝗹𝗮𝗻𝗴𝗲𝗿𝗲 𝘄𝗮𝗰𝗵𝘁𝘁𝗶𝗷𝗱𝗲𝗻 𝗯𝗶𝗷 𝗧𝗵𝘂𝗶𝘀𝗯𝗲𝘇𝗼𝗿𝗴𝗱

Wie in deze omstandigheden eten of boodschappen wil laten bezorgen omdat 'ie zelf de deur niet uit durft, moet geduld hebben. Door het winterse weer kampen bezorgdiensten zoals Thuisbezorgd en Flink met vertragingen. In sommige regio's zijn locaties...

https://www.rtl.nl/nieuws/binnenland/artikel/5551528/sneeuw-legt-bezorgdiensten-deels-plat-langere-wachttijden-en

#Flink #sneeuw #wachttijden

Flitsbezorger Flink sluit locaties door sneeuw, langere wachttijden bij Thuisbezorgd

Wie in deze omstandigheden eten of boodschappen wil laten bezorgen omdat 'ie zelf de deur niet uit durft, moet geduld hebben. Door het winterse weer kampen bezorgdiensten zoals Thuisbezorgd en Flink met vertragingen. In sommige regio's zijn locaties zelfs helemaal gesloten.

RTL Nieuws

Flink Stateful Functions https://nightlies.apache.org/flink/flink-statefun-docs-stable/ hasn't had an update in several years and is still compiled against an old version of Apache Flink.

I spent some time during the holidays uplifting it to Flink 2.2.0 https://github.com/fransking/flink-statefun/commit/25b2dfcc3feafd701eb2fec32d413fab56e1cfe6

Notionally it appears to be working as expected.

#flink #flinkStatefun #apacheFlink

Flink Kubernetes operator: опыт построения стриминговой Big Data платформы

Всем привет! Меня зовут Артемий, я работаю SRE-инженером в команде RTP (real time processing) Clickstream в Авито . Сегодня мы хотим поделиться нашей историей о том, как мы переехали в Kubernetes, развернув Apache Flink с помощью Flink k8s operator.

https://habr.com/ru/companies/avito/articles/972412/

#data #dwh #DataOps #bigdata #flink #sql #realtime #analytics #analytical_engine

Flink Kubernetes operator: опыт построения стриминговой Big Data платформы

Всем привет! Меня зовут Артемий, я работаю SRE-инженером в команде RTP (real time processing) Clickstream в Авито . Сегодня мы хотим поделиться нашей историей о том, как мы переехали в Kubernetes,...

Хабр

От минут к секундам, от ClickHouse к StarRocks: путь к real‑time в Hello

Кейс Hello: миграция 100+ млрд строк с ClickHouse на StarRocks. Как ускорить аналитику в 5 раз, снизить расходы на инфраструктуру на 80% и построить real-time DWH. Разбор архитектуры, самописных инструментов валидации и подводных камней перехода.

https://habr.com/ru/articles/970388/

#StarRocks #ClickHouse #Big_Data #OLAP #миграция_данных #realtime_analytics #Data_Lake #Flink #оптимизация #DWH

От минут к секундам, от ClickHouse к StarRocks: путь к real‑time в Hello

Автор: Юнь Ханьсюань, ведущий инженер по разработке Big Data в Hello Вступление Как один из ведущих в стране сервисов для поездок и локальных лайфстайл‑услуг, Hello в условиях мультибизнесовой...

Хабр

FlinkSQL в Авито: что внутри и как нам это помогает

Привет! Меня зовут Артемий, я инженер в команде Processing и веду фичатрек по развитию FlinkSQL в Авито . Сегодня я расскажу про инструмент, который мы развиваем в Avito — FlinkSQL. Он использует потоковые данные для аналитики в реальном времени: метрики, временные срезы, A/B-расчеты, поиск аномалий. Все это на привычном SQL, чтобы команда видела картину и могла действовать сразу.

https://habr.com/ru/companies/avito/articles/959382/

#Flink #kubernetes #bigdata #k8s #operator #kubernetes_operator #flink_kubernetes_operator #Apache_Flink #DataOps #dataops_platform

FlinkSQL в Авито: что внутри и как нам это помогает

Привет! Меня зовут Артемий, я инженер в команде Processing, веду фичатрек по развитию FlinkSQL в Авито . Мы занимаемся обработкой данных в реальном времени, и наша основная технология — Apache Flink....

Хабр

a quick example of using LISTAGG and ARRAY_AGG in #Flink SQL (and I managed to avoid mentioning how much the inconsistent use of underscores in SQL bugs me 😜)

https://dalelane.co.uk/blog/?p=5713

Flink SQL aggregate functions

In this post, I want to share a couple of very quick and simple examples for how to use LISTAGG and ARRAY_AGG in Flink SQL. This started as an answer I gave to a colleague asking about how to output collections of events from Flink SQL. I've removed the details and used this post to share a more ge

dale lane

Some suggestions of open source tools for data #analytics for people thinking which tools to use or consider to use.

#Plausible for #web analytics. It's very lightweight and #privacy-friendly, #GDPR-compliant. It's possible to self-host, but their #SaaS offering is affordable and meets needs.

#Metabase (self-hosted) for #business intelligence and organizing business/customer #data. It takes some time to configure and prepare #datasets, but for long-term is worthy.

#Clickhouse for sub-second #OLAP analytics.

Depending on projects/business scenarios, Apache Software Foundation's tools like #Doris, #Airflow, #Druid, #Flink, #Cassandra. They require some time to learn, but it's good idea to be familiar with them.
#dataanalytics #business #opensource #tech