Почему HTTP-загрузка в Apache Doris такая быстрая: разбор Stream Load по исходникам

Загружал пару лет переписки из Telegram в Apache Doris на ноутбуке. Первый запуск 2 часа. После оптимизации 206 400 сообщений за 5 секунд. Полез в исходники разобраться, почему Stream Load (HTTP-загрузка данных) в Doris работает так быстро. В статье разбор C++ кода: от HTTP PUT до Segment-файла на диске. Что внутри: — 14 шагов одного HTTP-запроса (с диаграммой и кодом) — StreamLoadPipe: буфер 4 MB с backpressure — Иерархия записи: LoadChannel → DeltaWriter → MemTable → async flush — 6 практических выводов: что крутить, что мерить, где смотреть compaction score

https://habr.com/ru/articles/1001944/

#apache_doris #stream_load #olapкубы #real_time #data_engineering

Почему HTTP-загрузка в Apache Doris такая быстрая: разбор Stream Load по исходникам

Решил я как-то выгрузить пару лет переписки из Telegram в Apache Doris на своем компе. Зачем? Я тестирую Doris как единую систему хранения и поиска по всем личным данным: сообщениям из мессенджеров,...

Хабр