[Show GN: cgrep: AI 코딩 에이전트를 위한 로컬 코드 의도 검색 도구
cgrep은 AI 코딩 에이전트가 코드베이스를 탐색할 때 토큰 낭비와 반복 검색을 줄이기 위해 설계된 로컬 코드 의도 검색 도구입니다. BM25 검색과 AST 심볼 분석을 결합하여 코드 의도에 맞는 탐색을 지원하며, PyTorch 기준 벤치마크에서 95.2%의 토큰 감소와 58.2배의 검색 지연 시간 개선을 보였습니다.
[Show GN: cgrep: AI 코딩 에이전트를 위한 로컬 코드 의도 검색 도구
cgrep은 AI 코딩 에이전트가 코드베이스를 탐색할 때 토큰 낭비와 반복 검색을 줄이기 위해 설계된 로컬 코드 의도 검색 도구입니다. BM25 검색과 AST 심볼 분석을 결합하여 코드 의도에 맞는 탐색을 지원하며, PyTorch 기준 벤치마크에서 95.2%의 토큰 감소와 58.2배의 검색 지연 시간 개선을 보였습니다.
Как гуманитарий за 2 месяца с нуля RAG систему построил, или Парсинг PDF по-хардкору
Добрый день. Сегодня я расскажу о том, как я за 2 месяца с полного нуля создал доменную RAG систему с корпусом в 20+ книг. В статье затрону проблемы парсинга данных (особенно PDF документов, с которыми приходилось иметь дело), чанкинга, создания и индексации эмбеддингов, а также самого интересного – ретривера. Расскажу о latency, трейд-оффах, и сложностях реализации подобных систем локально на ноутбуке (хоть и «игровом») без использования API LLM. Вся система делалась мной самостоятельно без использования LangChain – это чистый пайплайн от Tesseract, Pillow, MuPDF/Fitz до e5-multilingual, FAISS (+bm25, который я затрону в статье) и Qwen3:8B в качестве LLM.
https://habr.com/ru/articles/996144/
#RAG #машинное_обучение_нейросети_python #NLP #Построение_поисковых_систем #FAISS #BM25 #Tesseract #OCR #PDF #Embeddings
Avi Chawla (@_avichawla)
벡터 검색이 항상 최선이 아니며, 학습·임베딩·미세조정 없이 동작하는 30년 된 알고리즘 BM25가 여전히 Elasticsearch, OpenSearch 등 대부분의 상용 검색 시스템에서 핵심 역할을 하고 있다는 주장입니다. BM25의 작동 원리와 활용 이유를 이해하는 것이 중요하다는 내용입니다.

Vector search is not always the answer. A 30-year-old algorithm with zero training, zero embeddings, and zero fine-tuning still powers Elasticsearch, OpenSearch, and most production search systems today. It's called BM25, and it's worth understanding why it refuses to die.
Почему ваш RAG не найдёт нужные документы: математический потолок embedding-моделей
Все говорят про embedding-модели в RAG: бенчмарки MTEB, размеры моделей, chunking-стратегии. Но никто не задаёт главный вопрос: а сколько вообще документов может найти single-vector retrieval? Google DeepMind посчитали. Оказалось, что даже 4096-мерные эмбеддинги упираются в математический потолок — есть задачи, где они физически не смогут найти нужный документ из топ-2, даже если модель идеально обучена. В статье разбирается исследование LIMIT, показаны примеры, где dense retrieval проваливается (а BM25 справляется), и объяснено, почему для production-систем нужен гибридный поиск, а не слепая вера в SOTA-эмбеддинги.
https://habr.com/ru/articles/987954/
#RAG #embedding #retrieval #machine_learning #BM25 #поиск #нейросети #векторные_базы_данных
🚀 **Cập nhật `pg_search`: Hỗ trợ tìm kiếm facet** với giao diện tùy chỉnh, kết hợp lập kế hoạch và quét trực tiếp để tối ưu hóa BM25 index (dựa trên Tantivy). Kết quả trả về JSON kèm thống kê nhanh nhờ cấu trúc cột. #pg_search #PostgreSQL #TìmKiếmTốiƯu #BM25 #FacetedSearch #CơSởDữLiệu #DevUpdate
(*tags: #postgresql #facetsearch #tantivy #databases #developernews*)
New research shows how hierarchical retrieval can slash noise and keep prompt length in check for massive corpora. By pairing BM25 with dense embeddings, it trims latency and metadata bloat while preserving RAG relevance. Curious how this reshapes context size limits? Read on! #HierarchicalRetrieval #BM25 #RAG #ContextSize
🔗 https://aidailypost.com/news/hierarchical-retrieval-cuts-noise-controls-context-size-large-corpora
🌱 Unser Gehirn: der Suchalgorithmus 🌍
Wie kommt die Reihenfolge unserer Suchergebnisse zustande?
Das Ranking auf umwelt.info basiert auf fünf unterschiedlichen Faktoren: BM25-Ranking, Aktualität, Metadatenqualität, Popularität und Status.
Wie wir die unterschiedlichen Faktoren gewichten und was hinter den Begriffen steckt erfährst Du im Portal: https://umwelt.info/de/artikel/ueber-das-ranking-unserer-suchergebnisse
#Suchmaschine #umwelt #natur #daten #Metadaten #FAIRData #openCode #openData #opensource #bm25
We've been told embedding search strictly superior to BM25 and all other keyword-search algorithms. Then why is it still used in so many modern search pipelines, especially for RAG?
In this post I'll explain you what hybrid search is and why keyword search is still so useful to improve your search results.
"pg_textsearch trong Postgres 공식 hỗ trợ ranking BM25 hoàn chỉnh và tim kiếm hợp tác. Nâng cao độ chính xác tìm kiếm cho cơ sở dữ liệu! #PostgreSQL #BM25 #TìmKiếm #CơSảnDữLiệu #XếpX满"