Mastodawn

🚀✨ Behold, the thrilling tale of querying 3 billion vectors—a journey where Vicki Boykis heroically attempts to decode Jeff Dean's cryptic wisdom on #mapreduce. Spoiler: It's basically a nerdy treasure hunt for semantically similar items, but with more floating-point numbers than your brain can handle. 💻🧠
https://vickiboykis.com/2026/02/21/querying-3-billion-vectors/ #HackerNews #VickiBoykis #treasureHunt #techJourney #floatingPoint #HackerNews #ngated

Querying 3 billion vectors

Requirements are hard

Jan Marthedal Rasmussen Dec 31

The paper "MapReduce: Simplified Data Processing on Large Clusters" was published in December 2004. Map/reduce operations had been known for decades, but the paper was instrumental in the area of practical distributed computing and "big data". https://research.google.com/archive/mapreduce.html #distributed #computing #mapreduce #functional #programming

Show thread

JimmyLv Dec 28

✅ Summary: Turning Data into Knowledge

Map-Reduce for length, Prompt Chain for depth, and Dynamic Prompting for adaptability.
We push LLM potential to the limit.

Next: **3.3 RAG and Semantic Search**.
When you have 1000 videos, how do you find that exact second you need? 🚀

#BibiGPT #MapReduce #LLM #AIPrompt #SaaS

Show thread

JimmyLv Dec 28

✅ 总结：从原始数据到结构化知识

通过 Map-Reduce 解决长度，Prompt Chain 解决深度，Dynamic Prompting 解决适应性。
BibiGPT 将 LLM 的潜力发挥到了极致。

下一站：**3.3 RAG 与语义搜索**。
当你有 1000 个视频时，如何瞬间找到你想看的那一秒？🚀

#BibiGPT #MapReduce #LLM #AIPrompt #SaaS

Habr Dec 25

Обучаем ML-модели и запускаем batch-инференс на YTsaurus, как в Яндексе

Привет! Меня зовут Алексей Архипенко, я руковожу группой разработки ML‑инфраструктуры в команде YTsaurus. Мы часть Yandex Infrastructure и предоставляем пользователям внутри Яндекса инфраструктурный фундамент для самых разных задач машинного обучения. YTsaurus — основная платформа для хранения и обработки данных Яндекса, которая доступна на GitHub под лицензией Apache 2.0. Это позволяет всем желающим загрузить систему на свои серверы, а также дорабатывать её под свои нужды. Мы уже писали в прошлых постах про её выход в опенсорс и дальнейшее развитие , а также кейсы использования в рекламе . Сегодня расскажу, как Яндекс запускает в ней почти все ML‑обучения и batch‑инференс.

https://habr.com/ru/companies/yandex/articles/979336/

#ytsaurus #ml #batch_processing #gpu #gpu_вычисления #mapreduce #map_reduce

Обучаем ML-модели и запускаем batch-инференс на YTsaurus, как в Яндексе

Привет! Меня зовут Алексей Архипенко, я руковожу группой разработки ML‑инфраструктуры в команде YTsaurus. Мы часть Yandex Infrastructure и предоставляем пользователям внутри Яндекса...

Хабр

Habr Dec 6, 2025

Создаём мини-фреймворк для MapReduce в Scala с конкретной реализацией

Статья демонстрирует построение минималистичного MapReduce-фреймворка на Scala для локальных экспериментов. Рассматриваются стадии Map , Shuffle и Reduce с ленивыми вычислениями через Iterator , а также абстракции ввода/вывода IO и локальные исполнители с виртуальными потоками.

https://habr.com/ru/articles/966986/

#MapReduce #Scala #java21 #многопоточность #функциональное_программирование #sbt #фреймворк #jvm #bigdata #data_engineering

Создаём мини-фреймворк для MapReduce в Scala с конкретной реализацией

Ремарка Данная работа носит подготовительный и исследовательский характер и служит вводной частью к следующей статье, в которой будут рассмотрены реализации уже конкретных алгоритмов поверх описанного...

Хабр

Habr Oct 9, 2025

Распределенные вычисления в Apache Ignite 3

В статье разбираются возможности распределённых вычислений в Apache Ignite 3 . Покажу, как развернуть кластер в Docker, задеплоить собственные джобы и сравнить Ignite 3 с предыдущей версией. Затронем новые возможности Ignite как полноценной распределённой платформы, а не просто in-memory кэша.

https://habr.com/ru/articles/954928/

#distributed_computing #распределённые_вычисления #colocated_computations #коллокационные_вычисления #inmemory_database #java #apache_ignite_3 #mapreduce

Распределенные вычисления в Apache Ignite 3

Автор статьи: Антон Паняев, Java-разработчик В статье разбираются возможности распределённых вычислений в Apache Ignite 3 . Покажу, как развернуть кластер в Docker, задеплоить собственные джобы и...

Хабр

Knowledge Zone Jun 23, 2025

#ITByte: #MapReduce is a programming model and framework designed for processing large datasets in a parallel and distributed manner.

It's particularly useful for tasks that can be broken down into smaller, independent pieces.

https://knowledgezone.co.in/posts/What-is-MapReduce-6677bf67af6322731de3b7e9

Habr Jun 10, 2025

Как мы заменили сотни Join’ов на один РТ-процессинг с 1kk RPS

Как связаны скидки, пользовательские пути и огромные массивы данных в Яндекс Рекламе? Привет, Хабр! Меня зовут Максим Стаценко, я работаю с базами данных и яростно в них копаюсь с 2010 года, а в Big Data — с 2016. Сейчас работаю в Яндексе в DWH поиска и рекламы. Мы работаем с ОЧЕНЬ большими данными. Каждый день миллионы пользователей видят рекламу Яндекса, а наши системы обрабатывают огромные объёмы данных. Чтобы реклама работала эффективно, нам нужно в каждый момент времени иметь максимально полную информацию об истории жизни рекламного объявления, а значит нужно каким-то образом передавать данные от одного события к другому внутри рекламной воронки. Расскажу, как мы решали эту проблему.

https://habr.com/ru/companies/oleg-bunin/articles/884560/

#ytsaurus #mapreduce #olap #oltp #антифрод #распределенные_системы #оптимизация #обработка_данных #хранилища_данных

Как мы заменили сотни Join’ов на один РТ-процессинг с 1kk RPS

Как связаны скидки, пользовательские пути и огромные массивы данных в Яндекс Рекламе? Привет, Хабр! Меня зовут Максим Стаценко, я работаю с базами данных и яростно в них копаюсь с 2010 года, а в...

Хабр

Habr Jun 2, 2025

Соединение SortMergeJoin в Apache Spark

Рассмотрим, как реализован SortMergeJoin в Apache Spark, и заодно заглянем в исходный код на GitHub. Spark написан на языке Scala, и вся логика работы оператора доступна в открытом репозитории проекта. Вот здесь :) Первое, что рассмотрим - это конструктор кейс-класса 1. Конструктор SortMergeJoinExec

https://habr.com/ru/companies/gnivc/articles/914932/

#spark #join #hadoop #bigdata #mapreduce

Соединение SortMergeJoin в Apache Spark

Рассмотрим, как реализован SortMergeJoin в Apache Spark, и заодно заглянем в исходный код на GitHub. Spark написан на языке Scala, и вся логика работы оператора доступна в открытом репозитории...

Хабр