Show HN: Veles – Hybrid (BM25 and semantic) local code search MCP, in Rust

Veles는 Rust로 작성된 하이브리드(BM25와 시맨틱) 로컬 코드 검색 도구로, CPU만 사용해 빠른 응답 속도를 자랑합니다. persistent 인덱싱과 증분 업데이트를 지원하며, tree-sitter 기반 심볼 검색, 다양한 출력 포맷, gRPC 및 MCP 서버를 통해 AI 에이전트(Claude, Cursor 등)와 쉽게 통합할 수 있습니다. 멀티언어 지원과 경로 필터링, 정의 부스팅 등 실무에 유용한 기능을 갖추고 있어 AI 기반 코드 검색 및 에이전트 개발에 즉시 활용 가능합니다.

https://github.com/julymetodiev/Veles

#rust #codesearch #bm25 #semanticsearch #grpc

GitHub - julymetodiev/Veles: Fast hybrid (BM25 + semantic) local code search for AI agents - pure Rust, persistent index, MCP/gRPC servers, tree-sitter symbols

Fast hybrid (BM25 + semantic) local code search for AI agents - pure Rust, persistent index, MCP/gRPC servers, tree-sitter symbols - julymetodiev/Veles

GitHub

ParadeDB Is Officially on Railway

ParadeDB가 Railway 플랫폼에 공식 통합되어, 개발자가 원클릭으로 ParadeDB 인스턴스를 1분 이내에 배포할 수 있게 되었다. Railway는 AI 애플리케이션과 데이터베이스 배포에 최적화된 플랫폼으로, 자동 환경 변수 설정과 직관적인 대시보드를 제공한다. 배포 후에는 제공되는 연결 문자열을 통해 쉽게 ParadeDB에 접속하고, BM25 인덱스를 활용한 고속 텍스트 검색 기능을 즉시 사용할 수 있다. 이는 AI 서비스 개발 시 데이터베이스 배포 및 관리 편의성을 크게 향상시킨다.

https://www.paradedb.com/blog/railway

#paradedb #railway #database #deployment #bm25

ParadeDB is Officially on Railway

Deploy ParadeDB on Railway with one click. Full-text search, vector search, and hybrid search over Postgres — now available on your favorite cloud platform.

Code search tool that understands code structure and ranks results by relevance

cs는 코드 구조를 이해하고 BM25 기반의 스마트 랭킹과 복잡도 가중치를 활용해 검색 결과를 관련성 순으로 정렬하는 CLI 코드 검색 도구입니다. 인덱싱 없이 실시간 파싱으로 주석, 문자열, 코드 구분이 가능하며, 선언부와 사용처 필터링, 다중 인터페이스(TUI, HTTP, MCP)를 지원합니다. Git 동기화 기능으로 여러 저장소를 자동 업데이트하며, Sourcegraph 수준의 정밀한 검색을 경량 CLI 환경에서 제공합니다. Go, Python, JavaScript 등 다양한 언어를 지원해 AI 개발자들의 코드 탐색과 분석 효율을 크게 향상시킬 수 있습니다.

https://github.com/boyter/cs

#codesearch #clitool #bm25 #gitsync #codestructure

GitHub - boyter/cs: codespelunker - CLI code search tool that understands code structure and ranks results by relevance. No indexing required with CLI, TUI, MCP and HTTP support.

codespelunker - CLI code search tool that understands code structure and ranks results by relevance. No indexing required with CLI, TUI, MCP and HTTP support. - boyter/cs

GitHub

Гибридный поиск в Manticore Search

Поиск редко сводится к одному универсальному сценарию. Пользователь, вводящий "cheap running shoes", хочет точных совпадений по ключевым словам, а пользователь, задающий "comfortable footwear for jogging", выражает то же намерение другими словами. Традиционный полнотекстовый поиск хорошо справляется с первым случаем. Векторный поиск решает второй. Гибридный поиск объединяет оба в одном запросе, так что вам не приходится выбирать. В современных поисковых системах это часто описывается как комбинирование лексического (разреженного) поиска с семантическим (плотным) поиском . Разные термины, одна идея: точное совпадение плюс смысл.

https://habr.com/ru/articles/1018754/

#гибридный_поиск #полнотекстовый_поиск #векторный_поиск #full_text_search #knnsearch #vector_search #bm25 #rag

Гибридный поиск в Manticore Search

Поиск редко сводится к одному универсальному сценарию. Пользователь, вводящий "cheap running shoes", хочет точных совпадений по ключевым словам, а пользователь, задающий "comfortable footwear for...

Хабр
👴🧙‍♂️ Oh look, another "graybeard" programmer claiming to have conquered the #Postgres #search universe with a #GitHub repository and a sprinkle of fairy dust. 🚀✨ The article boasts about a magical #BM25 search extension like it's the iPhone of database queries, but spoiler alert: it's still just Postgres with a fancy name tag. 🏷️🤖
https://github.com/timescale/pg_textsearch #graybeardprogrammer #databasequeries #HackerNews #ngated
GitHub - timescale/pg_textsearch: PostgreSQL extension for BM25 relevance-ranked full-text search. Postgres OSS licensed.

PostgreSQL extension for BM25 relevance-ranked full-text search. Postgres OSS licensed. - timescale/pg_textsearch

GitHub
GitHub - timescale/pg_textsearch: PostgreSQL extension for BM25 relevance-ranked full-text search. Postgres OSS licensed.

PostgreSQL extension for BM25 relevance-ranked full-text search. Postgres OSS licensed. - timescale/pg_textsearch

GitHub

От 0.034 до 0.791 и обратно: Legal RAG, 17 итераций и стена масштабирования

Я участвовал в ARLC 2026 — юридическом AI-челлендже по построению RAG-пайплайна поверх корпуса судебных решений и законов. Соло, с Claude Code в качестве напарника. За 5 дней и 17 итераций прошёл путь от 0.034 до 0.791 на warmup — а потом вышел в финал и потерял 42% на 300 документах вместо 30. Внутри — архитектура, код, математика F-beta, три провала и честный разбор работы с AI-ассистентом.

https://habr.com/ru/articles/1014758/

#RAG #retrieval_augmented_generation #legal_AI #Claude #grounding #BM25 #reranking #NLP #соревнование

От 0.034 до 0.791 и обратно: Legal RAG, 17 итераций и стена масштабирования

От 0.034 до 0.791 и обратно: соревнование по Legal RAG, 17 итераций и стена масштабирования Мне давно хотелось погрузиться в RAG, но повода не было. Я решил поучаствовать в ARLC 2026 — юридическом...

Хабр

[Show GN: cgrep: AI 코딩 에이전트를 위한 로컬 코드 의도 검색 도구

cgrep은 AI 코딩 에이전트가 코드베이스를 탐색할 때 토큰 낭비와 반복 검색을 줄이기 위해 설계된 로컬 코드 의도 검색 도구입니다. BM25 검색과 AST 심볼 분석을 결합하여 코드 의도에 맞는 탐색을 지원하며, PyTorch 기준 벤치마크에서 95.2%의 토큰 감소와 58.2배의 검색 지연 시간 개선을 보였습니다.

https://news.hada.io/topic?id=26685

#cgrep #aicoding #codesearch #bm25 #astanalysis

cgrep: AI 코딩 에이전트를 위한 로컬 코드 의도 검색 도구

<p>안녕하세요. cgrep이라는 로컬 우선(code-local) 코드 검색 도구를 만들었습니다.</p> <p>핵심 목표는 AI 코딩 에이전트가 코드베이스를 탐색할...

GeekNews

Как гуманитарий за 2 месяца с нуля RAG систему построил, или Парсинг PDF по-хардкору

Добрый день. Сегодня я расскажу о том, как я за 2 месяца с полного нуля создал доменную RAG систему с корпусом в 20+ книг. В статье затрону проблемы парсинга данных (особенно PDF документов, с которыми приходилось иметь дело), чанкинга, создания и индексации эмбеддингов, а также самого интересного – ретривера. Расскажу о latency, трейд-оффах, и сложностях реализации подобных систем локально на ноутбуке (хоть и «игровом») без использования API LLM. Вся система делалась мной самостоятельно без использования LangChain – это чистый пайплайн от Tesseract, Pillow, MuPDF/Fitz до e5-multilingual, FAISS (+bm25, который я затрону в статье) и Qwen3:8B в качестве LLM.

https://habr.com/ru/articles/996144/

#RAG #машинное_обучение_нейросети_python #NLP #Построение_поисковых_систем #FAISS #BM25 #Tesseract #OCR #PDF #Embeddings

Как гуманитарий за 2 месяца с нуля RAG систему построил, или Парсинг PDF по-хардкору

Введение Добрый день. Сегодня я расскажу о том, как я за 2 месяца с полного нуля создал доменную RAG систему с корпусом в 20+ книг. В статье затрону проблемы парсинга данных (особенно PDF документов,...

Хабр

Avi Chawla (@_avichawla)

벡터 검색이 항상 최선이 아니며, 학습·임베딩·미세조정 없이 동작하는 30년 된 알고리즘 BM25가 여전히 Elasticsearch, OpenSearch 등 대부분의 상용 검색 시스템에서 핵심 역할을 하고 있다는 주장입니다. BM25의 작동 원리와 활용 이유를 이해하는 것이 중요하다는 내용입니다.

https://x.com/_avichawla/status/2020747017258217808

#bm25 #vectorsearch #elasticsearch #opensearch #search

Avi Chawla (@_avichawla) on X

Vector search is not always the answer. A 30-year-old algorithm with zero training, zero embeddings, and zero fine-tuning still powers Elasticsearch, OpenSearch, and most production search systems today. It's called BM25, and it's worth understanding why it refuses to die.

X (formerly Twitter)