Почему HTTP-загрузка в Apache Doris такая быстрая: разбор Stream Load по исходникам
Загружал пару лет переписки из Telegram в Apache Doris на ноутбуке. Первый запуск 2 часа. После оптимизации 206 400 сообщений за 5 секунд. Полез в исходники разобраться, почему Stream Load (HTTP-загрузка данных) в Doris работает так быстро. В статье разбор C++ кода: от HTTP PUT до Segment-файла на диске. Что внутри: — 14 шагов одного HTTP-запроса (с диаграммой и кодом) — StreamLoadPipe: буфер 4 MB с backpressure — Иерархия записи: LoadChannel → DeltaWriter → MemTable → async flush — 6 практических выводов: что крутить, что мерить, где смотреть compaction score
https://habr.com/ru/articles/1001944/
#apache_doris #stream_load #olapкубы #real_time #data_engineering
