✅ Summary: Turning Data into Knowledge
Map-Reduce for length, Prompt Chain for depth, and Dynamic Prompting for adaptability.
We push LLM potential to the limit.
Next: **3.3 RAG and Semantic Search**.
When you have 1000 videos, how do you find that exact second you need? 🚀
✅ 总结:从原始数据到结构化知识
通过 Map-Reduce 解决长度,Prompt Chain 解决深度,Dynamic Prompting 解决适应性。
BibiGPT 将 LLM 的潜力发挥到了极致。
下一站:**3.3 RAG 与语义搜索**。
当你有 1000 个视频时,如何瞬间找到你想看的那一秒?🚀
Обучаем ML-модели и запускаем batch-инференс на YTsaurus, как в Яндексе
Привет! Меня зовут Алексей Архипенко, я руковожу группой разработки ML‑инфраструктуры в команде YTsaurus. Мы часть Yandex Infrastructure и предоставляем пользователям внутри Яндекса инфраструктурный фундамент для самых разных задач машинного обучения. YTsaurus — основная платформа для хранения и обработки данных Яндекса, которая доступна на GitHub под лицензией Apache 2.0. Это позволяет всем желающим загрузить систему на свои серверы, а также дорабатывать её под свои нужды. Мы уже писали в прошлых постах про её выход в опенсорс и дальнейшее развитие , а также кейсы использования в рекламе . Сегодня расскажу, как Яндекс запускает в ней почти все ML‑обучения и batch‑инференс.
https://habr.com/ru/companies/yandex/articles/979336/
#ytsaurus #ml #batch_processing #gpu #gpu_вычисления #mapreduce #map_reduce
Создаём мини-фреймворк для MapReduce в Scala с конкретной реализацией
Статья демонстрирует построение минималистичного MapReduce-фреймворка на Scala для локальных экспериментов. Рассматриваются стадии Map , Shuffle и Reduce с ленивыми вычислениями через Iterator , а также абстракции ввода/вывода IO и локальные исполнители с виртуальными потоками.
https://habr.com/ru/articles/966986/
#MapReduce #Scala #java21 #многопоточность #функциональное_программирование #sbt #фреймворк #jvm #bigdata #data_engineering
Распределенные вычисления в Apache Ignite 3
В статье разбираются возможности распределённых вычислений в Apache Ignite 3 . Покажу, как развернуть кластер в Docker, задеплоить собственные джобы и сравнить Ignite 3 с предыдущей версией. Затронем новые возможности Ignite как полноценной распределённой платформы, а не просто in-memory кэша.
https://habr.com/ru/articles/954928/
#distributed_computing #распределённые_вычисления #colocated_computations #коллокационные_вычисления #inmemory_database #java #apache_ignite_3 #mapreduce
#ITByte: #MapReduce is a programming model and framework designed for processing large datasets in a parallel and distributed manner.
It's particularly useful for tasks that can be broken down into smaller, independent pieces.
https://knowledgezone.co.in/posts/What-is-MapReduce-6677bf67af6322731de3b7e9
Как мы заменили сотни Join’ов на один РТ-процессинг с 1kk RPS
Как связаны скидки, пользовательские пути и огромные массивы данных в Яндекс Рекламе? Привет, Хабр! Меня зовут Максим Стаценко, я работаю с базами данных и яростно в них копаюсь с 2010 года, а в Big Data — с 2016. Сейчас работаю в Яндексе в DWH поиска и рекламы. Мы работаем с ОЧЕНЬ большими данными. Каждый день миллионы пользователей видят рекламу Яндекса, а наши системы обрабатывают огромные объёмы данных. Чтобы реклама работала эффективно, нам нужно в каждый момент времени иметь максимально полную информацию об истории жизни рекламного объявления, а значит нужно каким-то образом передавать данные от одного события к другому внутри рекламной воронки. Расскажу, как мы решали эту проблему.
https://habr.com/ru/companies/oleg-bunin/articles/884560/
#ytsaurus #mapreduce #olap #oltp #антифрод #распределенные_системы #оптимизация #обработка_данных #хранилища_данных
Соединение SortMergeJoin в Apache Spark
Рассмотрим, как реализован SortMergeJoin в Apache Spark, и заодно заглянем в исходный код на GitHub. Spark написан на языке Scala, и вся логика работы оператора доступна в открытом репозитории проекта. Вот здесь :) Первое, что рассмотрим - это конструктор кейс-класса 1. Конструктор SortMergeJoinExec
YTsaurus — два года в опенсорсе: чего мы достигли и куда движемся
20 марта мы провели митап для пользователей YTsaurus — главной платформы для хранения и обработки больших данных в Яндексе от разработчиков из Yandex Infrastructure, которая уже успела зарекомендовать себя за пределами компании. Этот текст во многом основан на моем выступлении на митапе: я кратко расскажу, чего мы достигли, какие улучшения внесли и что ждёт пользователей в ближайшем будущем.