[Перевод] Iceberg без Spark для каждой мелочи: UPDATE, DELETE и MERGE INTO из одного SQL-движка в Apache Doris 4.1

Apache Doris 4.1 добавляет UPDATE, DELETE и MERGE INTO на Iceberg-таблицы прямо из SQL-клиента — без отдельного Spark job. Iceberg V3 Deletion Vectors и Row Lineage делают этот DML архитектурно здоровым: нет линейной деградации от delete files, нет false positives в CDC после compaction. Перевод и адаптация статьи Mingyu Chen (CC BY 4.0) с бенчмарками, SQL-примерами и Quick Start.

https://habr.com/ru/articles/1030676/

#Apache_Doris #che_Iceberg #MERGE_INTO #CDC

Iceberg без Spark для каждой мелочи: UPDATE, DELETE и MERGE INTO из одного SQL-движка в Apache Doris 4.1

Атрибуция: Этот материал является переводом и адаптацией статьи Apache Doris 4.1 on Iceberg V3: Running the Full Lakehouse Lifecycle from One SQL Engine за авторством Mingyu Chen (Rayner),...

Хабр

Почему HTTP-загрузка в Apache Doris такая быстрая: разбор Stream Load по исходникам

Загружал пару лет переписки из Telegram в Apache Doris на ноутбуке. Первый запуск 2 часа. После оптимизации 206 400 сообщений за 5 секунд. Полез в исходники разобраться, почему Stream Load (HTTP-загрузка данных) в Doris работает так быстро. В статье разбор C++ кода: от HTTP PUT до Segment-файла на диске. Что внутри: — 14 шагов одного HTTP-запроса (с диаграммой и кодом) — StreamLoadPipe: буфер 4 MB с backpressure — Иерархия записи: LoadChannel → DeltaWriter → MemTable → async flush — 6 практических выводов: что крутить, что мерить, где смотреть compaction score

https://habr.com/ru/articles/1001944/

#apache_doris #stream_load #olapкубы #real_time #data_engineering

Почему HTTP-загрузка в Apache Doris такая быстрая: разбор Stream Load по исходникам

Решил я как-то выгрузить пару лет переписки из Telegram в Apache Doris на своем компе. Зачем? Я тестирую Doris как единую систему хранения и поиска по всем личным данным: сообщениям из мессенджеров,...

Хабр