Databases for #AI: Should you use a vector #database? 🤔

This article compares #opensource projects competing to handle modern #AI workloads, including #machinelearning and #LLMs. Discover which databases best meet today’s AI challenges: https://lpi.org/636x

(Disclaimer: This post contains an AI-generated image.)

#AndyOram #AI #vectordatabase #machinelearning #LLMs #SQL #opensource #hybridsearch #generativeAI #MariaDB #MongoDB #Milvus #Qdrant #Weaviate #Vespa #ChromaDB #LanceDB

Tối ưu truy vấn LIKE trong hệ thống tìm kiếm: Khi kết hợp tìm kiếm vector với bộ lọc từ khóa (LIKE '%...%'), hiệu suất thường tụt dốc do phải quét toàn bộ dữ liệu. Milvus đã thử nghiệm chỉ mục N-gram để giải quyết vấn đề này—chuyển đổi truy vấn chuỗi con thành tìm kiếm theo chỉ mục đảo, giúp tăng tốc 80–190×. Thử nghiệm trên 100K tài liệu và 1M bản ghi cho thấy thời gian truy vấn giảm từ hàng trăm ms xuống còn ~1ms.

#Milvus #NgramIndex #VectorSearch #LIKEQuery #KeywordMatching #TốiƯuCSDL #TìmK

Автоматизация подготовки датасета для задачи сегментации объектов: от сбора данных до готового прототипа за пару дней

Проблема Представьте ситуацию: у вас задача: нужно сделать прототип проекта, который требует обучения модели сегментации на специфичных данных. Классический подход — это недели и даже месяцы ручной работы: • Сбор и запись данных • Удаление дубликатов вручную • Ручная разметка тысяч изображений (Это и деньги, и время) • Валидация качества данных (Это тоже и деньги, и время) • Подготовка датасета для обучения Для маленькой команды, стартапа, это ну прям А что если весь этот процесс можно автоматизировать и сократить с недель до нескольких минут? Именно такую систему мы разработали буквально за один день для нового прототипного проекта.

https://habr.com/ru/articles/982112/

#SAM3 #YOLO #computervision #deeplearning #activelearning #cvat #embeddings #milvus

Автоматизация подготовки датасета для задачи сегментации объектов: от сбора данных до готового прототипа за пару дней

Проблема Делаем в свободное время робототехнический проект, нужно сделать прототип , который требует обучения модели сегментации на специфичных данных, а также должен мочь масштабироваться. Типы...

Хабр

Avi Chawla (@_avichawla)

Binary Quantization을 활용해 3,600만개 이상의 벡터를 <30ms로 쿼리하는 RAG(검색 기반 생성) 시스템을 구성하는 방법을 공유합니다. 기술 스택: llama_index(오케스트레이션), Milvus(벡터 DB), Kimi-K2 LLM(호스팅: Groq). 고성능 벡터 검색·응답 파이프라인 사례입니다.

https://x.com/_avichawla/status/2004077542136013052

#rag #vectordb #binaryquantization #milvus #llm

Avi Chawla (@_avichawla) on X

Today, let's build a RAG system that queries 36M+ vectors in <30ms using Binary Quantization. Tech stack: - @llama_index for orchestration - @milvusio as the vector DB - @Kimi_Moonshot Kimi-K2 as the LLM hosted on @GroqInc Let's build it!

X (formerly Twitter)
🌘 七年、兩次重大重塑、逾四萬 GitHub 星標:Milvus 如何躍升為領先開源向量資料庫
➤ 開源向量資料庫 Milvus 的崛起之路與關鍵進化
https://milvus.io/blog/milvus-exceeds-40k-github-stars.md
Milvus,一款開源向量資料庫,從 2017 年起便致力於為 AI 應用提供高效、可擴展且可靠的數據基礎設施。歷經兩次重大架構重塑,Milvus 不斷進化,從最初的概念驗證到如今成為企業級 AI 工作負載的關鍵支撐。透過開源社羣的貢獻與反饋,Milvus 逐步完善,特別是 Milvus 2.5 和 2.6 版本,透過引入原生混合搜尋、優化儲存與記憶體使用、提升索引效能,顯著降低了成本並增強了效能。此外,Zilliz 也推出 DeepSearcher 和 Claude Context 等開源工具,進一步豐富 AI 開發者生態系,展現其對開放、透明 AI 基礎設施的承諾。
+ Milvus 的發展歷程真的很勵志,從一個小團隊的願景,到如今擁有龐大的社羣和商業應用,
#開源 #向量資料庫 #AI基礎設施 #Milvus
7 Years, 2 Major Rebuilds, 40K+ GitHub Stars: The Rise of Milvus as the Leading Open-Source Vector Database - Milvus Blog

Celebrating Milvus’s 7-Year Journey to Becoming the World’s Leading Open-Source Vector Database

Векторный поиск: как выбрать систему и не пожалеть

От поиска по архивам документов и медиафайлам до рекомендательных систем и AI приложений — всюду работают эмбеддинги и векторный поиск. Но когда дело доходит до выбора конкретного инструмента, глаза разбегаются: Qdrant, Milvus, Weaviate, Redis, Elasticsearch, Pgvector… Если вы: - планируете внедрять семантический поиск в свой продукт, - выбираете между проверенными временем БД и специализированными системами обработки векторов, - ищете независисые бенчмарки, то этот материал — для вас. Мы разберем основные концепции векторного поиска, сравним популярные open-source решения и протестируем скорость их работы с учетом загрузки процессора и памяти.

https://habr.com/ru/companies/tensor/articles/970480/

#векторный_поиск #pgvector #pgvectors #milvus #weaviate #redis #qdrant #vespa #elasticsearch #chroma

Векторный поиск: как выбрать систему и не пожалеть

От поиска по архивам документов и медиафайлам до рекомендательных систем и AI приложений — всюду работают эмбеддинги и векторный поиск. Но когда дело доходит до выбора конкретного инструмента, глаза...

Хабр

Любовное письмо LLM, или как я перестал бояться и впервые довел пет-проект до конца

Я ненавижу пет-проекты. Да, я НЕНАВИЖУ их всей своей душой. Ровно с тех пор, как получил свою первую фул-тайм работу разработчиком. Я ненавижу приходить с работы и вставать перед выбором - работать в рамках привычного мне фронтенда, которым я занимаюсь на моей “с 9 до 5” и от которого к концу рабочей недели уже тошнит. …или с головой погружаться в новые технологии, медленно и мучительно прогрызаясь через них, прежде, чем у тебя получится сделать нечто чуть лучше условного Hello world. Если ты, конечно, не готов жертвовать сном, другими хобби или временем, проведенным с любимыми людьми. По крайней мере, я так думал до одного забавного дня пару месяцев назад.

https://habr.com/ru/articles/971742/

#python #milvus #telegram #telegrambot #петпроект

Любовное письмо LLM, или как я перестал бояться и впервые довел пет-проект до конца

Я ненавижу пет-проекты Да, я НЕНАВИЖУ их всей своей душой. Ровно с тех пор, как получил свою первую фул-тайм работу разработчиком. Я ненавижу приходить с работы и вставать перед выбором - работать в...

Хабр

Выбираем векторную БД для AI-агентов и RAG: большой обзор баз данных и поиск смысла

В этой статье я сделал обзор основных векторных баз данных: Milvus, Qdrant, Weaviate, ChromaDB, pgvector, Redis, pgvectorscale, LanceDB, ClickHouse, Vespa, Marqo, ElasticSearch. Если вы запутались в разнообразии векторных баз данных или хочется верхнеуровнево понимать как они устроены, чем отличаются и для чего вообще нужны, то эта статья будет очень полезна. Мы пошагово соберем все ожидания от векторных БД, посмотрим бенчмарки, а затем попробуем собрать все воедино.

https://habr.com/ru/articles/961088/

#базы_данных #milvus #pgvector #qdrant #redis #chroma #chromadb #ииагенты #aiагенты #LLM

Выбираем векторную БД для AI-агентов и RAG: большой обзор баз данных и поиск смысла

В этой статье я сделал обзор основных векторных баз данных: Milvus, Qdrant, Weaviate, ChromaDB, pgvector, Redis, pgvectorscale, LanceDB, ClickHouse, Vespa, Marqo, ElasticSearch. Если вы запутались в...

Хабр

"Xây dựng pipeline tìm kiếm druge nhé! 🤔 Cảpgvector hayLLamaIndex+Milvus? Nhu cầu millions rows. Giúpôi về t_CSAL, skalabilité, bảo trì! #pgvector #LlamaIndex #Milvus #SemanticSearch #Python #AI"

https://www.reddit.com/r/LocalLLaMA/comments/1oaksnu/need_advice_pgvector_vs_llamaindex_milvus_for/

October #milvus-milvus