Mastodawn

[Перевод] Как Uber масштабировал репликацию данных, чтобы ежедневно перемещать петабайты

Uber держит огромные объёмы данных сразу в своих дата-центрах и в облаке, поэтому их нужно постоянно и быстро копировать между регионами для аналитики и аварийного восстановления. Когда объём таких копирований вырос до петабайта в день, оказалось, что система тормозит не на самой передаче данных, а на подготовке задач и служебных накладных расходах. Команда переработала процесс так, чтобы тяжелая подготовительная рутина выполнялась ближе к месту запуска задач, а ключевые этапы шли параллельно. Для маленьких копирований они убрали лишние запуски отдельных процессов/контейнеров, чтобы не тратить время на старт пустой работы. В итоге пропускная способность репликации выросла примерно в 5 раз и стала стабильнее, а перенос данных в облако пошёл заметно быстрее

https://habr.com/ru/articles/996726/

#uber #system_design #it #data #data_analysis #high_performance #performance

Как Uber масштабировал репликацию данных, чтобы ежедневно перемещать петабайты

Uber держит огромные объёмы данных сразу в своих дата-центрах и в облаке, поэтому их нужно постоянно и быстро копировать между регионами для аналитики и аварийного восстановления. Когда объём таких...

Хабр

Habr Jan 27

Сравнительный обзор механизмов polling в Kafka и Pub/Sub в RabbitMQ: особенности и области применения

Друзья, привет! Меня зовут Андрей Комягин, я CTO компании STM Labs. Мы занимаемся разработкой очень больших распределённых высоконагруженных систем для различных отраслей, включая налоговое администрирование, телеком, track & trace и многие другие. В своих проектах и архитектурах мы широко применяем open-source-решения, включая брокеры сообщений, такие как Kafka и RabbitMQ. Совсем недавно я выступил на конференции HighLoad++ Genesis 2025: рассказал про анатомию каждого из этих брокеров, сравнил их по набору критериев и оценил результаты их нагрузочного тестирования. А теперь решил выпустить этот материал в виде статьи в блоге, чтобы читатели Хабра тоже смогли изучить нюансы и понять, на какие задачи заточен каждый из брокеров. Итак, поехали! О брокере Apache Kafka я очень подробно рассказал в своей предыдущей статье . Повторяться и снова разбирать его сегодня я не буду — вы можете перейти по ссылке выше и ознакомиться с материалом, а затем вернуться сюда.

https://habr.com/ru/articles/989590/

#kafka #rabbitmq #messagebroker #highload #highload++ #high_performance #архитектура #высоконагруженные_системы

Сравнительный обзор механизмов polling в Kafka и Pub/Sub в RabbitMQ: особенности и области применения

Друзья, привет! Меня зовут Андрей Комягин, я CTO компании STM Labs. Мы занимаемся разработкой очень больших распределённых высоконагруженных систем для различных отраслей, включая налоговое...

Хабр

Hacker News Jul 16, 2025

cppyy: Automatic Python-C++ Bindings
https://cppyy.readthedocs.io/en/latest/
#ycombinator #Python #C #llvm #cling #binding #bindings #automatic_bindings #bindings_generator #cross_language_inheritance #calling_C_from_Python #calling_Python_from_C #high_performance #data_science

cppyy: Automatic Python-C++ bindings — cppyy 3.5.0 documentation

cppyy: Automatic Python-C++ bindings

Hacker News Sep 19, 2024

An In-Depth Guide to Contrastive Learning: Techniques, Models, and Applications
https://myscale.com/blog/what-is-contrastive-learning/
#ycombinator #myscale #myscale_database #myscale_vector_database #myscale_ai #myscale_vector #myscale_illustration #image_search #vector #search_console #database #sql #search_engine #gpt_4 #gpt_3 #dbms #high_performance #vector_images #vector_art #vector_graphics #llm #word2vec

An In-Depth Guide to Contrastive Learning: Techniques, Models, and Applications

Discover the fundamentals of contrastive learning, including key techniques like SimCLR, MoCo, and CLIP. Learn how contrastive learning improves unsupervised learning and its practical applications.

Habr Sep 9, 2024

REDIS: такой простой и такой сложный

Меня зовут Андрей Комягин, я СТО компании STM Labs. Мы занимаемся разработкой очень больших распределённых высоконагруженных систем для различных отраслей и в своей работе широко используем open-source решения, в том числе СУБД Redis. Недавно я подробно рассказывал об этой системе на конференции Saint HighLoad++, а теперь с удовольствием поделюсь основной информацией с читателями Хабра. Итак, поехали.

https://habr.com/ru/companies/stm_labs/articles/841792/

#redis #highload #highload++ #high_performance #high_availability #cache #caching #database_design #базы_данных #архитектура

REDIS: такой простой и такой сложный

Меня зовут Андрей Комягин, я СТО компании STM Labs. Мы занимаемся разработкой очень больших распределённых высоконагруженных систем для различных отраслей и в своей работе широко используем...

Хабр

Hacker News Aug 7, 2024

LangChain vs. LlamaIndex
https://myscale.com/blog/llamaindex-vs-langchain-detailed-comparison/
#ycombinator #myscale #myscale_database #myscale_vector_database #myscale_ai #myscale_vector #myscale_illustration #image_search #vector #search_console #database #sql #search_engine #gpt_4 #gpt_3 #dbms #high_performance #vector_images #vector_art #vector_graphics #llm #word2vec

LangChain vs LlamaIndex: Choose the Best Framework for Your AI Applications

Explore the detailed comparison of Llamaindex vs Langchain to make informed decisions. Discover the strengths of each tool for your project needs.

Habr Jun 11, 2024

OpenDJ: быстрый масштабируемый LDAP на базе Apache Cassandra

LDAP-совместимые службы каталогов — широко распространенный отраслевой стандарт и удобное решение для хранения идентификационных данных. В одном из популярных open-source LDAP каталогов OpenDJ , начиная с версии 4.6.1 появилась возможность использовать Apache Cassandra или ScyllaDB в качестве хранилища данных. Это позволяет использовать преимущества производительности и масштабируемости колоночных NoSQL БД по сравнению с классическими LDAP каталогами. В данной статье мы развернем инстанс OpenDJ на базе Apache Cassandra.

https://habr.com/ru/articles/820925/

#ldap #opendj #open_source #cassandra #apache_cassandra #scylladb #scylla #high_performance #highload #scalability

OpenDJ: быстрый масштабируемый LDAP на базе Apache Cassandra

Введение LDAP-совместимые службы каталогов — широко распространенный отраслевой стандарт и удобное решение для хранения идентификационных данных. LDAP службы наиболее часто используются в: управлении...

Хабр

Hacker News Aug 28, 2023

Fortran
https://fortran-lang.org/en/index.html
#ycombinator #High_performance #parallel #programming_language

The Fortran Programming Language — Fortran Programming Language

Fortran : High-performance parallel programming language

Hacker News Jul 24, 2023

Teach your LLM to answer with facts, not fiction
https://blog.myscale.com/2023/07/17/teach-your-llm-vector-sql/
#ycombinator #myscale #myscale_database #myscale_vector_database #myscale_ai #myscale_vector #myscale_illustration #image_search #vector #search_console #database #sql #search_engine #gpt_4 #gpt_3 #dbms #high_performance #vector_images #vector_art #vector_graphics #llm #word2vec

Teach your LLM to always answer with facts not fiction

A vector database that supports Structured Query Language can store more than vectors. Common data types like timestamps and arrays can be accessed and filtered within the database, which improves the accuracy and efficiency of vector search queries. Accurate results from the database can teach LLMs to speak with facts, which reduces hallucination and enhance the quality and credibility of answers from LLM.