Секреты Apache Kafka API: обработка сообщений без потерь и дублей

Меня зовут Андрей Серебрянский, и я люблю Apache Kafka. И гарантии доставки exactly once. И рассказывать обо всём этом на конференциях . Пять лет я строил платформы потоковой обработки данных в финтехе, а теперь вместе с командой работаю над YDB Topics: частью YDB (СУБД Яндекса), которая заменяет Apache Kafka в роли брокера сообщений. СУБД Яндекса уже некоторое время поддерживает Apache Kafka API. Недавно мы расширили этот API, добавив поддержку Kafka-транзакций. Но наличия транзакций в брокере сообщений недостаточно для получения гарантий exactly once. Чтобы неудачно зависший или перезагрузившийся сервер не привёл к дублированию или потере сообщений, нужно хорошо понимать, как именно работают транзакции в брокерах сообщений вообще и в Apache Kafka в частности. Эта статья будет полезна начинающим разработчикам и тем, кто хочет освежить знания или разобраться в тонкостях exactly once обработки данных с помощью YDB Topics или других брокеров сообщений.

https://habr.com/ru/companies/ydb/articles/972180/?utm_source=habrahabr&utm_medium=rss&utm_campaign=972180

#ydb #kafka #exactlyonce #transactions

Секреты Apache Kafka API: обработка сообщений без потерь и дублей

Меня зовут Андрей Серебрянский, и я люблю Apache Kafka. И гарантии доставки exactly once. И рассказывать обо всём этом на конференциях . Пять лет я строил платформы потоковой обработки данных в...

Хабр

Секреты Apache Kafka API: обработка сообщений без потерь и дублей

Меня зовут Андрей Серебрянский, и я люблю Apache Kafka. И гарантии доставки exactly once. И рассказывать обо всём этом на конференциях . Пять лет я строил платформы потоковой обработки данных в финтехе, а теперь вместе с командой работаю над YDB Topics: частью YDB (СУБД Яндекса), которая заменяет Apache Kafka в роли брокера сообщений. СУБД Яндекса уже некоторое время поддерживает Apache Kafka API. Недавно мы расширили этот API, добавив поддержку Kafka-транзакций. Но наличия транзакций в брокере сообщений недостаточно для получения гарантий exactly once. Чтобы неудачно зависший или перезагрузившийся сервер не привёл к дублированию или потере сообщений, нужно хорошо понимать, как именно работают транзакции в брокерах сообщений вообще и в Apache Kafka в частности. Эта статья будет полезна начинающим разработчикам и тем, кто хочет освежить знания или разобраться в тонкостях exactly once обработки данных с помощью YDB Topics или других брокеров сообщений.

https://habr.com/ru/companies/ydb/articles/972180/

#ydb #kafka #exactlyonce #transactions

Секреты Apache Kafka API: обработка сообщений без потерь и дублей

Меня зовут Андрей Серебрянский, и я люблю Apache Kafka. И гарантии доставки exactly once. И рассказывать обо всём этом на конференциях . Пять лет я строил платформы потоковой обработки данных в...

Хабр

Транзакционная работа с топиками: архитектура и сравнение решений в Apache Kafka и YDB Topics

Привет, Хабр! Меня зовут Алексей Николаевский, и мы с командой делаем СУБД Яндекса. С 2013 года в Яндексе использовали Kafka для потоковой передачи данных. Но Kafka со временем перестала справляться с растущими объёмами, и в 2017 году мы перешли на своё решение. Брокер сообщений YDB Topics во многом вдохновлялся Kafka: в нём также есть топики, партиции и аналогичные способы работы с данными. Но есть и существенные отличия, о которых в конце прошлого года я рассказал на московской конференции HighLoad . Под катом — адаптированная для Хабра статья по мотивам этого доклада : про архитектуру транзакций в обеих системах и интересные для разработчиков детали и нюансы, которые мы обсуждали на конференции.

https://habr.com/ru/companies/ydb/articles/949662/

#ydb #kafka #streaming_platforms #message_broker #transition #database #exactlyonce

Транзакционная работа с топиками: архитектура и сравнение решений в Apache Kafka и YDB Topics

Привет, Хабр! Меня зовут Алексей Николаевский, и мы с командой делаем СУБД Яндекса. С 2013 года в Яндексе использовали Kafka для потоковой передачи данных. Но Kafka со временем перестала справляться с...

Хабр

Как используются динтаблицы YTsaurus: рекламные профили поведенческого таргетинга

Когда вы видите баннер, кликаете по рекламе или указываете, что вас не интересует тот или иной товар, — за кулисами происходит немало вычислений. Система поведенческого таргетинга, отвечающая за персонализацию рекламы в Яндексе, получает эти события, обновляет ваш профиль, а затем использует его, чтобы в следующий раз показать что‑то более подходящее. Сама по себе задача кажется очевидной: собирать события, обновлять профили, обеспечивать быстрое считывание информации. Но если заглянуть под капот, начинается настоящее инженерное приключение. Сотни тысяч событий в секунду, требование обработки в режиме exactly‑once, жёсткие ограничения по времени отклика, компромисс между скоростью и экономией ресурсов, и всё это — на фоне необходимости работать надёжно и с горизонтальным масштабированием. Меня зовут Руслан Савченко, в Yandex Infrastructure я руковожу разработкой динамических таблиц YTsaurus — системы, в которой поведенческий таргетинг хранит данные. В этой статье я подробно разберу кейс поведенческого таргетинга с динтаблицами: почему таблицы в памяти иногда тормозят из‑за аллокатора, зачем мы внедрили xdelta, как именно устроены агрегатные колонки и что пришлось сделать, чтобы миллисекунды отклика в 99,9 перцентиле стали реальностью.

https://habr.com/ru/companies/yandex/articles/939078/

#ytsaurus #поведенческий_таргетинг #exactlyonce #realtime #realtime #шардирование

Как используются динтаблицы YTsaurus: рекламные профили поведенческого таргетинга

Когда вы видите баннер, кликаете по рекламе или указываете, что вас не интересует тот или иной товар, — за кулисами происходит немало вычислений. Система...

Хабр

Apache Kafka в гарантиях или как надежно доставить сообщение

Apache Kafka — это основа современных распределенных систем, обрабатывающий триллионы событий ежедневно. Но что происходит, если сообщение потерялось, пришло дважды или нарушилась логика бизнес‑процесса? Гарантии доставки в Kafka — это страховка от хаоса в условиях высокой нагрузки и сбоев. В этой статье мы разберем три вида гарантий доставки сообщений на примерах.

https://habr.com/ru/companies/otus/articles/930372/

#apache_kafka #доставка_сообщений #семантика_доставки #гарантия_доставки #AtMostOnce #AtLeastOnce #ExactlyOnce #Kafka_транзакции #идемпотентность_Kafka

Apache Kafka в гарантиях или как надежно доставить сообщение

Автор статьи: Сергей Прощаев @sproshchaev Руководитель направления Java‑разработки в FinTech Введение Apache Kafka — это основа современных распределенных систем, обрабатывающий триллионы...

Хабр