Databricks обещал конец баз данных. Читаем мелкий шрифт

Пару дней назад я собрал сводку новостей по lakehouse и закончил её обещанием: разберу каждый громкий анонс по отдельности. Выполняю - и начинаю с самого шумного. На своём июньском саммите Databricks вышел на сцену с заявлением масштаба смены эпохи: отдельные быстрые базы под витрины больше не нужны, перекачка данных между системами умерла, а всё хозяйство теперь живёт в едином озере, готовом под ИИ-агентов. Звучит так, что хочется встать и поверить. Я вместо этого полез в их документацию, инженерные блоги и интервью - и ниже по пунктам сверяю, что обещано со сцены, а что написано мелким шрифтом. Сразу скажу: технология местами действительно сильная. Но «конца эпохи» в опубликованных данных я не нашёл - нашёл несколько мест, где громкое слово прикрывает вещь куда более скромную и знакомую.

https://habr.com/ru/articles/1053690/

#Data_Lakehouse #databricks #clickhouse #apache #reyden #lakebase #delta_lake #ducklake #postgres #хранилища_данных

Databricks обещал конец баз данных. Читаем мелкий шрифт

Серия «Новости мира Datalakehouse». ПРОДОЛЖЕНИЕ анонса Пару дней назад я собрал сводку новостей по lakehouse и закончил её обещанием: разберу каждый громкий анонс по отдельности. Выполняю - и начинаю...

Хабр

Шесть недель с agentic AI против фрода в adversarial-системе

Я слишком рано понёс первые результаты в наш продукт. Тогда это выглядело логично: мы прикрутили агентный ИИ к анализу логов и поведения пользователей в regulated продукте с реальными денежными операциями, качество обнаружения пошло вверх, аналитики по фроду стали меньше возвращать инженерам мусорные кейсы. Снаружи это уже выглядело рабочим слоем защиты: аналитики видели меньше мусора, инженеры получали более понятные issues, и продукт наконец увидел практическую пользу вместо очередного демо. Я примерно так и сказал: “смотрите, это уже не игрушка”. Плохая фраза, как оказалось. Потому что как только защита начинает работать, даже чуть-чуть, вокруг сразу появляются нормальные взрослые вопросы. А давайте это в платежи? А в бонусный абьюз? А в L7? А в социнженерию? А в странные кейсы саппорта, где один тикет внезапно объясняет половину графика? Вопросы честные. Только дорогие. И в системах с живым противником есть ещё одна неприятная деталь: рабочая защита становится сигналом для другой стороны. Пишу по собственному инженерному опыту. Детали слегка обобщены и обезличены, потому что в антифроде лишняя конкретика быстро превращается в инструкцию для другой стороны.

https://habr.com/ru/articles/1053668/

#fraud_detection #llm #agentic_ai #observability #clickhouse #kafka #langgraph #антиабьюз

Шесть недель с agentic AI против фрода в adversarial-системе

Я слишком рано понёс первые результаты в наш продукт. Тогда это выглядело логично: мы прикрутили агентный ИИ к анализу логов и поведения пользователей в regulated продукте с реальными денежными...

Хабр

ClickGems 출시: RubyGems 커뮤니티를 위한 심층 분석 플랫폼

ClickGems는 RubyGems의 다운로드 통계를 분석하는 새로운 플랫폼으로, 2017년부터 현재까지 2000억 건 이상의 데이터를 제공합니다.

🔗 원문 보기

ClickGems 출시: RubyGems 커뮤니티를 위한 심층 분석 플랫폼

ClickGems는 RubyGems의 다운로드 통계를 분석하는 새로운 플랫폼으로, 2017년부터 현재까지 2000억 건 이상의 데이터를 제공합니다.

Ruby-News

The latest ClickHouse v26.6 comes with my patch for single dict low cardinality optimizations. It's a yuge boon if you have a single large dictionary, as it is no longer getting re-loaded for each range.

It's literally a 500x improvement in latency.

And if you have many dicts, you may be better off with one now (and you can lower your granularity).

* https://github.com/ClickHouse/ClickHouse/issues/98968
* https://github.com/ClickHouse/ClickHouse/issues/99236
* https://github.com/ClickHouse/ClickHouse/pull/99285
* https://github.com/ClickHouse/ClickHouse/pull/103662
* https://github.com/ClickHouse/ClickHouse/pull/105605

#clickhouse

Как мы ушли от ETL к CDC: выбираем архитектуру real-time аналитики на PostgreSQL, Kafka и ClickHouse. Часть 1

Все началось с просьбы сделать отчеты в реальном времени. На первый взгляд задача выглядела простой, но довольно быстро выяснилось, что существующая архитектура для этого не подходит. Проект был разбит на множество микросервисов, каждый из которых хранил данные в собственной PostgreSQL-базе. Чтобы строить сквозные отчеты, информацию нужно было где-то объединять. На тот момент аналитика уже работала через ETL: раз в сутки Airflow восстанавливал общую PostgreSQL из ежедневных бекапов, а Redash выполнял запросы уже к ней. Решение было надежным и не требовало нагрузки на production, но для real-time оно не годилось — в лучшем случае отчеты показывали состояние системы на начало дня.

https://habr.com/ru/articles/1051760/

#postgresql #clickhouse #kafka #debezium #cdc #kubernetes #etl #realtime_аналитика #kafka_connect #devops

Как мы ушли от ETL к CDC: выбираем архитектуру real-time аналитики на PostgreSQL, Kafka и ClickHouse. Часть 1

Все началось с просьбы сделать отчеты в реальном времени. На первый взгляд задача выглядела простой, но довольно быстро выяснилось, что существующая архитектура для этого не подходит. Проект был...

Хабр

Реалтайм-аналитика «без боли»: миграция из PostgreSQL и Kafka в ClickHouse и визуализация в Superset

Когда у вас появляется продукт с активными процессами и большим количеством пользователей, объём данных начинает расти быстрее, чем ожидалось. На старте всё выглядит достаточно просто: есть PostgreSQL, где хранятся основные сущности, есть Kafka с событиями, и кажется, что этого достаточно для решения большинства задач. Но со временем появляются новые вопросы. Команде становится недостаточно просто посчитать количество записей или получить текущее состояние объекта. Хочется понять, что происходило в системе: какие события привели к изменению состояния, какие действия выполнялись, где возникла проблема и на каком этапе произошёл сбой. В этот момент становится понятно, что обычные источники данных не всегда подходят для аналитики. PostgreSQL должен обслуживать основную нагрузку приложения, а Kafka отлично решает задачи доставки событий, но не является удобным инструментом для сложного анализа. В этой статье расскажу, как мы с командой построили отдельный аналитический контур: организовали миграцию данных из разных источников, объединили события Kafka и данные PostgreSQL, а затем вывели результат в удобные дашборды для технических специалистов и бизнеса. Узнать больше

https://habr.com/ru/companies/magnit/articles/1049072/

#clickhouse #kafka #postgresql #superset #peerdb #kafkaconnect

Реалтайм-аналитика «без боли»: миграция из PostgreSQL и Kafka в ClickHouse и визуализация в Superset

Когда у вас появляется продукт с активными процессами или пользователями, данные начинают расти быстрее, чем ожидалось. Сначала всё просто: есть PostgreSQL, в котором хранятся основные сущности, есть...

Хабр

Langfuse の裏側 ClickHouse を直接確認して、LLM トレースのコスト・レイテンシを自然言語で分析してみた
https://qiita.com/asahide/items/783ab04cc17ae10264fc?utm_campaign=popular_items&utm_medium=feed&utm_source=popular_items

#qiita #MCP #ClickHouse #langfuse #ClaudeDesktop

Langfuse の裏側 ClickHouse を直接確認して、LLM トレースのコスト・レイテンシを自然言語で分析してみた - Qiita

1. はじめに 以前検証もしてますが、LLM オブザーバビリティツールの Langfuse が、トレースの保存先に列指向データベースの ClickHouse を使っている、という話が出発点です。アプリの画面だけでなく、トレースを貯めている ClickHouse のテーブル...

Qiita

Millionen Unique Visitors zählen, ohne den RAM zu sprengen? HyperLogLog (HLL) & HLL++ machen es möglich! Statt Millionen IDs zu speichern, nutzt man Hashing und Statistik. Gigantische Datenmengen schrumpfen auf wenige KB bei minimaler Standardabweichung. Perfekt für Echtzeit-Webanalytics.

HLL++ korrigiert zudem den Bias bei kleinen Datenmengen. Nutzt ihr schon probabilistische Datenstrukturen für eure Uniques?

#WebAnalytics #BigData #Redis #PostgreSQL #ClickHouse #DevOps #WebDev

🥳🎉 Celebrating a whole decade of ClickHouse—because apparently, databases need birthdays too! 🎂🎈 Dive into an open-source labyrinth of buzzword salad, where the words "cloud" and "managed" get tossed around like confetti at a toddler's #birthday party. 🚀🌧️
https://clickhouse.com/blog/open-source-10 #ClickHouse #OpenSource #CloudConfetti #DatabaseCelebration #HackerNews #ngated
Ten years of ClickHouse in open source

ClickHouse was released in open source on Jun 15 2016, ten years ago. Since then, it became the most popular open source analytical database with more than 2000 contributors.

ClickHouse
Ten years of ClickHouse in open source

ClickHouse was released in open source on Jun 15 2016, ten years ago. Since then, it became the most popular open source analytical database with more than 2000 contributors.

ClickHouse