[Show GN: cgrep: AI 코딩 에이전트를 위한 로컬 코드 의도 검색 도구

cgrep은 AI 코딩 에이전트가 코드베이스를 탐색할 때 토큰 낭비와 반복 검색을 줄이기 위해 설계된 로컬 코드 의도 검색 도구입니다. BM25 검색과 AST 심볼 분석을 결합하여 코드 의도에 맞는 탐색을 지원하며, PyTorch 기준 벤치마크에서 95.2%의 토큰 감소와 58.2배의 검색 지연 시간 개선을 보였습니다.

https://news.hada.io/topic?id=26685

#cgrep #aicoding #codesearch #bm25 #astanalysis

cgrep: AI 코딩 에이전트를 위한 로컬 코드 의도 검색 도구

<p>안녕하세요. cgrep이라는 로컬 우선(code-local) 코드 검색 도구를 만들었습니다.</p> <p>핵심 목표는 AI 코딩 에이전트가 코드베이스를 탐색할...

GeekNews

Как гуманитарий за 2 месяца с нуля RAG систему построил, или Парсинг PDF по-хардкору

Добрый день. Сегодня я расскажу о том, как я за 2 месяца с полного нуля создал доменную RAG систему с корпусом в 20+ книг. В статье затрону проблемы парсинга данных (особенно PDF документов, с которыми приходилось иметь дело), чанкинга, создания и индексации эмбеддингов, а также самого интересного – ретривера. Расскажу о latency, трейд-оффах, и сложностях реализации подобных систем локально на ноутбуке (хоть и «игровом») без использования API LLM. Вся система делалась мной самостоятельно без использования LangChain – это чистый пайплайн от Tesseract, Pillow, MuPDF/Fitz до e5-multilingual, FAISS (+bm25, который я затрону в статье) и Qwen3:8B в качестве LLM.

https://habr.com/ru/articles/996144/

#RAG #машинное_обучение_нейросети_python #NLP #Построение_поисковых_систем #FAISS #BM25 #Tesseract #OCR #PDF #Embeddings

Как гуманитарий за 2 месяца с нуля RAG систему построил, или Парсинг PDF по-хардкору

Введение Добрый день. Сегодня я расскажу о том, как я за 2 месяца с полного нуля создал доменную RAG систему с корпусом в 20+ книг. В статье затрону проблемы парсинга данных (особенно PDF документов,...

Хабр

Avi Chawla (@_avichawla)

벡터 검색이 항상 최선이 아니며, 학습·임베딩·미세조정 없이 동작하는 30년 된 알고리즘 BM25가 여전히 Elasticsearch, OpenSearch 등 대부분의 상용 검색 시스템에서 핵심 역할을 하고 있다는 주장입니다. BM25의 작동 원리와 활용 이유를 이해하는 것이 중요하다는 내용입니다.

https://x.com/_avichawla/status/2020747017258217808

#bm25 #vectorsearch #elasticsearch #opensearch #search

Avi Chawla (@_avichawla) on X

Vector search is not always the answer. A 30-year-old algorithm with zero training, zero embeddings, and zero fine-tuning still powers Elasticsearch, OpenSearch, and most production search systems today. It's called BM25, and it's worth understanding why it refuses to die.

X (formerly Twitter)

Почему ваш RAG не найдёт нужные документы: математический потолок embedding-моделей

Все говорят про embedding-модели в RAG: бенчмарки MTEB, размеры моделей, chunking-стратегии. Но никто не задаёт главный вопрос: а сколько вообще документов может найти single-vector retrieval? Google DeepMind посчитали. Оказалось, что даже 4096-мерные эмбеддинги упираются в математический потолок — есть задачи, где они физически не смогут найти нужный документ из топ-2, даже если модель идеально обучена. В статье разбирается исследование LIMIT, показаны примеры, где dense retrieval проваливается (а BM25 справляется), и объяснено, почему для production-систем нужен гибридный поиск, а не слепая вера в SOTA-эмбеддинги.

https://habr.com/ru/articles/987954/

#RAG #embedding #retrieval #machine_learning #BM25 #поиск #нейросети #векторные_базы_данных

Почему ваш RAG не найдёт нужные документы: математический потолок embedding-моделей

Вы внедрили RAG в продакшен. Embedding-модель занимает топовые позиции на MTEB, векторная база настроена, chunking оптимизирован. Всё работает. Пока пользователи не начинают жаловаться: "Система не...

Хабр
🌘 為什麼增加關鍵字反而能加快 BM25 查詢速度?(以及其他擴充性驚喜)
➤ 深入探討全文檢索的擴充性模型與 MAXSCORE 優化機制
https://turbopuffer.com/blog/bm25-latency-musings
在全文檢索領域,傳統直覺認為查詢條件愈複雜,系統負擔就愈重。然而,本文透過 turbopuffer 引擎的實測數據指出,BM25 搜尋的效能特性與向量搜尋截然不同。藉由 MAXSCORE 等進階演算法,系統能精準識別「關鍵詞」並跳過不必要的計算。在特定情況下,增加一個稀有的關鍵字反而能大幅縮小搜尋範圍,進而提升運算效率。作者更進一步利用數學模型分析了查詢延遲如何隨文件數量與 top_k 值的變化而縮放,揭示了搜尋引擎在處理大規模數據時的底層行為。
+ 沒想到增加關鍵字反而能透過演算法過濾掉更多無效資料,這跟直覺完全相反,對於理解搜尋引擎底層運作非常有幫助!
+ 文章提到的 $C \cdot n^K$ 縮放模型很實用,特別是 K 值趨近於 1 的案例,讓我們在設計大規模搜尋系統時更有心理準備。
#全文檢索 #BM25 #演算法優化 #搜尋引擎
Why BM25 queries with more terms can be faster (and other scaling surprises)

I analyzed how BM25 query latencies scale with document count and top_k. Longer queries scale less efficiently, and essential terms impact performance in some surprising ways.

🚀 **Cập nhật `pg_search`: Hỗ trợ tìm kiếm facet** với giao diện tùy chỉnh, kết hợp lập kế hoạch và quét trực tiếp để tối ưu hóa BM25 index (dựa trên Tantivy). Kết quả trả về JSON kèm thống kê nhanh nhờ cấu trúc cột. #pg_search #PostgreSQL #TìmKiếmTốiƯu #BM25 #FacetedSearch #CơSởDữLiệu #DevUpdate

(*tags: #postgresql #facetsearch #tantivy #databases #developernews*)

https://www.paradedb.com/blog/faceting

14x Faster Faceted Search in PostgreSQL with ParadeDB

Introducing faceted search in ParadeDB - bringing the power of search engine faceting to PostgreSQL with single-query aggregations.

New research shows how hierarchical retrieval can slash noise and keep prompt length in check for massive corpora. By pairing BM25 with dense embeddings, it trims latency and metadata bloat while preserving RAG relevance. Curious how this reshapes context size limits? Read on! #HierarchicalRetrieval #BM25 #RAG #ContextSize

🔗 https://aidailypost.com/news/hierarchical-retrieval-cuts-noise-controls-context-size-large-corpora

🌱 Unser Gehirn: der Suchalgorithmus 🌍

Wie kommt die Reihenfolge unserer Suchergebnisse zustande?

Das Ranking auf umwelt.info basiert auf fünf unterschiedlichen Faktoren: BM25-Ranking, Aktualität, Metadatenqualität, Popularität und Status.

Wie wir die unterschiedlichen Faktoren gewichten und was hinter den Begriffen steckt erfährst Du im Portal: https://umwelt.info/de/artikel/ueber-das-ranking-unserer-suchergebnisse

#Suchmaschine #umwelt #natur #daten #Metadaten #FAIRData #openCode #openData #opensource #bm25

Wie die Reihenfolge unserer Suchergebnisse zustande kommt

Welche Faktoren beeinflussen die Reihenfolge der Suchergebnisse bei Ihrer Suche auf umwelt.info? Unsere Ranking-Prozesse einfach erklärt.

umwelt.info

We've been told embedding search strictly superior to BM25 and all other keyword-search algorithms. Then why is it still used in so many modern search pipelines, especially for RAG?

In this post I'll explain you what hybrid search is and why keyword search is still so useful to improve your search results.

https://www.zansara.dev/posts/2025-11-04-hybrid-retrieval/

#AI #GenAI #LLMs #BM25 #Embedding #Retrieval #RAG

What's hybrid retrieval good for?

We've been told embedding search strictly superior to BM25 and all other keyword-search algorithms. But they still have a role in modern search pipelines.

Sara Zan

"pg_textsearch trong Postgres 공식 hỗ trợ ranking BM25 hoàn chỉnh và tim kiếm hợp tác. Nâng cao độ chính xác tìm kiếm cho cơ sở dữ liệu! #PostgreSQL #BM25 #TìmKiếm #CơSảnDữLiệu #XếpX满"

https://www.reddit.com/r/programming/comments/1oe9con/from_ts_rank_to_bm25_introducing_pg_textsearch/