Ivan Centamori

Discover HNSW (Hierarchical Navigable Small World), the algorithm making vector search instant. A practical guide to PHP implementation using the Vektor library.

Tôi vừa xây dựng 1 vector database viết sẵn bằng C++, API bằng Go hỗ trợ các thao tác cơ bản. Hiện đang dùng bruteforce search để cải thiện, sắp chuyển sang HNSW. Mời bạn góp ý, test thử nghiệm, nhắn tin trao đổi repo nhé! #VectorDB #C++ #LậpTrìnhGo #PhátTriểnMở #VectorSearch #EarlyAdopters #VectorDatabase #HNSW #DevCommunity #NhàLậpTrình

https://www.reddit.com/r/opensource/comments/1pxqwxl/how_to_find_early_users/

Как мы сделали альтернативную систему метчинга товаров в X5 Digital: опыт, грабли и результат

Привет, Хабр! Меня всё ещё зовут Данила Федюкин, и я продолжаю быть тимлидом в X5 Digital. Руковожу командой, которая занимается метчингом. В прошлый раз я рассказывал, как мы перешли на собственную систему рекомендаций, а в этот раз о том, как делаем то же самое, но с метчингом товаров. X5 Digital – один из цифровых бизнесов Х5. Мы работаем в режиме Highload с RPS в 7500 и отвечаем за всю онлайн-доставку в более чем 1000 городах и населённых пунктах России. Этот канал постоянно растёт. В 2024 году покупатели Х5 совершили свыше 119,5 млн заказов продуктов на дом. Мы делаем собственную in-house WMS для дарксторов, приложения для сборщиков и курьеров, CRM, каталоги товаров и другие онлайн-продукты, а ещё мобильное приложение для торговых сетей. Всё это, отталкиваясь от разных форматов доставки. В «Перекрёстке» среднее время доставки CTD (Click-to-Delivery — от оформления заказа до его получения клиентом) сократилось до 45 минут, в «Чижике» — до 37 минут, а в «Пятёрочке» порядка 40% заказов доставляются клиентам менее чем за 20 минут.

https://habr.com/ru/companies/X5Tech/articles/977626/

#машинное_обучение #nlp_обработка_текста #матчинг_товаров #рекомендации #векторный_поиск #faiss #hnsw #e5 #bert #onnx

Как мы сделали альтернативную систему метчинга товаров в X5 Digital: опыт, грабли и результат

Привет, Хабр! Меня всё ещё зовут Данила Федюкин, и я продолжаю быть тимлидом в X5 Digital. Руковожу командой, которая занимается метчингом. В прошлый раз я рассказывал , как мы перешли на собственную...

Хабр

Here's a take on #HNSW from the redis guy, antirez https://news.ycombinator.com/item?id=45887466

Seems like DiskANN on #LMDB already does better

Scaling HNSWs | Hacker News

#DiskANN and #HNSW (Hierarchical Navigable Small World graphs) appear to be trending again. First popped onto my radar 2 years ago, using #LMDB. https://xcancel.com/search?f=tweets&q=%23DiskANN&cursor=DAADDAABCgABGnlm6BXbcfcKAAIY9_luAhchywAIAAIAAAACCAADAAAAAAgABAAAAAAKAAUbmx1GGMAnEAoABhubHUYYv9jwAAA

A lot of the more recent noise seems to be on M$ infrastructure. For those with more money than brains...

🚀 So, you've spent a year wrestling with HNSWs and decided to take a break. How groundbreaking! 🤯 Now, instead of yet another intro, we're blessed with a "brain dump" of #advanced #findings, because, of course, the world was just dying for that extra mile of #HNSW wisdom. 🙄
https://antirez.com/news/156 #breakthroughs #tech #innovation #brain #dump #HackerNews #ngated
Scaling HNSWs - <antirez>

🌗 HNSW 擴展:Redis 向量搜尋的效能優化
➤ 從記憶體佔用與搜尋速度談 HNSW 的 Redis 實踐經驗
https://antirez.com/news/156
作者分享了在 Redis 中實現 HNSW(Hierarchical Navigable Small Worlds)向量搜尋資料結構近一年的心得與技術洞察。文章深入探討了 HNSW 在記憶體使用和搜尋速度方面的挑戰,並提出了向量量化(尤其是 8 位元量化)和多執行緒處理等關鍵優化策略。透過這些方法,有效提升了 Redis 在處理向量相似度搜尋時的效能,使其能達到 Redis 一貫的低延遲和高吞吐量目標。同時,作者也對 HNSW 的現有架構提出了改進的看法,認為其仍有進一步演化的空間。
+ 這篇文章的技術細節非常深入!向量量化確實是降低記憶體佔用的關鍵,8 位元量化帶來的 4 倍加速聽起來很驚人。
+ 作者對 HNSW 的批評很有見地,期待看到更多關於去除「H」的實驗結果。Redis 的多執行緒讀寫設計是如何處理併發寫入的,這部分很想知道更多。
#資料結構 #HNSW #Redis #向量搜尋 #效能優化
Scaling HNSWs - <antirez>

[Перевод] Как я построил RAG-систему за вечер с помощью 5 open source-инструментов

Команда Python for Devs подготовила практическое руководство по сборке полноценной RAG-системы из пяти open source-инструментов. MarkItDown, LangChain, ChromaDB, Ollama и Gradio превращают разрозненные документы в умную базу знаний с потоковой генерацией ответов. Всё локально, без облаков и с открытым кодом — попробуйте собрать свой ChatGPT прямо у себя.

https://habr.com/ru/articles/955798/

#python #rag #chromadb #ollama #hnsw #langchain

Как я построил RAG-систему за вечер с помощью 5 open source-инструментов

Команда  Python for Devs  подготовила практическое руководство по сборке полноценной RAG-системы из пяти open source-инструментов. MarkItDown, LangChain, ChromaDB, Ollama и Gradio превращают...

Хабр

[Перевод] Автоэмбеддинги: поиск на ИИ без лишней мороки

Мы рады представить новую возможность, которая делает создание приложений с семантическим поиском таким же простым, как написание SQL-запроса: Автоэмбеддинги . Теперь Manticore Search берёт на себя генерацию эмбеддингов — без дополнительных пайплайнов, внешних сервисов и лишней мороки.

https://habr.com/ru/articles/947632/

#векторный_поиск #семантический_поиск #эмбеддинги #embeddings #vector_search #semantic_search #sql_search #knnsearch #hnsw #json_api

Автоэмбеддинги: поиск на ИИ без лишней мороки

Мы рады представить новую функцию, которая делает создание приложений с семантическим поиском таким же простым, как написание SQL-запроса: Автоэмбеддинги . С этой возможностью Manticore Search берёт...

Хабр

Векторный поиск в Elasticsearch: dense_vector, HNSW и фильтрация по атрибутам

Привет, Хабр! В современном поиске всё чаще используется поиск «по смыслу» с помощью векторных эмбеддингов. Вместо привычного анализа текста по словам мы представляем документы и запросы в виде многомерных векторов и ищем ближайших соседей по евклидовому или косинусному расстоянию. Это позволяет, например, находить документы, схожие по смыслу, а не только по точному совпадению слов. В Elasticsearch поддержка такого поиска реализована через поле dense_vector и алгоритм HNSW (Hierarchical Navigable Small World) для быстрого приближённого поиска ближайших соседей. В этой статье разберём, как настроить индекс с векторным полем, добавить документы с векторами и выполнять запросы kNN с возможностью фильтрации по дополнительным атрибутам.

https://habr.com/ru/companies/otus/articles/946162/

#elasticsearch #векторный_поиск #семантический_поиск #фильтрация_по_атрибутам #dense_vector #HNSW

Векторный поиск в Elasticsearch: dense_vector, HNSW и фильтрация по атрибутам

Привет, Хабр! В современном поиске всё чаще используется поиск «по смыслу» с помощью векторных эмбеддингов. Вместо привычного анализа текста по словам мы представляем документы и запросы в виде...

Хабр