Like Ollama, but for your own cloud [Apache 2.0]

SIE(Superlinked Inference Engine)는 85개 이상의 사전 구성된 모델을 단일 API로 제공하는 오픈소스 추론 서버이자 프로덕션 클러스터입니다. 임베딩, 재순위, 엔티티 추출 기능을 지원하며, CUDA, Apple Silicon, CPU 환경에서 동작하고 Kubernetes용 Terraform, KEDA 오토스케일링, Grafana 대시보드를 포함한 전체 프로덕션 스택을 제공합니다. LangChain, LlamaIndex, Haystack 등 주요 AI 도구와도 통합되어 있어 자체 클라우드 환경에서 고성능 AI 추론 서비스를 구축하는 데 적합합니다.

https://github.com/superlinked/sie

#inferenceengine #embedding #reranking #opensource #mlops

GitHub - superlinked/sie: Superlinked Inference Engine is an Open-source inference server and production cluster for embeddings, reranking, and extraction.

Superlinked Inference Engine is an Open-source inference server and production cluster for embeddings, reranking, and extraction. - superlinked/sie

GitHub

Probe: AI Agent Context Engine

Probe는 AI 코딩 에이전트가 프로젝트 문서, 사양, 코드 등을 빠르게 인덱싱하고 의미 기반 및 키워드 검색을 결합해 관련 컨텍스트를 밀리초 단위로 제공하는 CLI 도구이자 MCP 서버입니다. ZeroEntropy의 최첨단 임베딩(zembed-1)과 재순위(zerank-2) 모델을 활용해 문서와 코드를 통합 검색하고, 결과를 교차 인코더로 재평가해 가장 관련성 높은 정보를 반환합니다. Claude Code, Cursor 등 MCP 호환 에이전트와 쉽게 연동되며, 자동 인덱싱과 갱신 기능을 지원해 대규모 프로젝트에서도 신속한 질의응답이 가능합니다. 현재는 실시간 파일 감시, 웹 소스 연동, Git 컨텍스트 등은 미지원 상태입니다.

https://github.com/zeroentropy-ai/probe

#aiagent #semanticsearch #embedding #reranking #zeroentropy

GitHub - zeroentropy-ai/probe: AI Agent Context Engine — give your coding agent a brain beyond code

AI Agent Context Engine — give your coding agent a brain beyond code - zeroentropy-ai/probe

GitHub

S Banerjee (@SB434223)

RAG에서 임베딩 품질만으로는 충분하지 않으며, 데이터가 커질수록 검색 공간이 조밀해져 ‘거의 관련 있는’ 문서가 늘고 recall이 떨어진다는 점을 강조한다. 따라서 대규모 RAG에서는 reranking 같은 후처리와 검색 설계가 중요하다는 기술적 인사이트를 제시한다.

https://x.com/SB434223/status/2052648564321595428

#rag #embedding #reranking #retrieval #llm

S Banerjee (@SB434223) on X

@akshay_pachaar this is such an important point people miss with RAG embedding quality alone isn’t enough , retrieval becomes a density problem at scale as collection grow, semantic neighborhoods become crowded with “almost relevant” docs, and recall collapses which is why: - reranking

X (formerly Twitter)

Google for Developers (@googledevs)

RAG 파이프라인을 최적화해 더 정교한 AI 에이전트를 만드는 방법이 소개됐다. Docling으로 문서 구조화를 하고, dot product로 효율을 높이며, re-ranking으로 정확도를 개선하는 등 검색증강생성 기반 에이전트 개발 기법을 다룬다.

https://x.com/googledevs/status/2042331722298060929

#rag #aiagents #docling #reranking #llm

Google for Developers (@googledevs) on X

Build more refined AI agents by optimizing your RAG pipeline with GDE, Glen Yu → https://t.co/uR9hJ0LKy0 Glen Yu shows how to: 📄 Use Docling for structured formats 🔢 Apply dot product for efficiency 🎯 Implement re-ranking for accuracy

X (formerly Twitter)

Step-by-step RAG tutorial: build retrieval-augmented generation systems with vector databases, hybrid search, reranking, and web search. Architecture, implementation, and production best practices.

#AI #LLM #RAG #Embeddings #Reranking #Vector Database

https://www.glukhov.org/rag/

Retrieval-Augmented Generation (RAG) Tutorial: Architecture, Implementation, and Production Guide

Step-by-step RAG tutorial: build retrieval-augmented generation systems with vector databases, hybrid search, reranking, and web search. Architecture, implementation, and production best practices.

Rost Glukhov | Personal site and technical blog

От 0.034 до 0.791 и обратно: Legal RAG, 17 итераций и стена масштабирования

Я участвовал в ARLC 2026 — юридическом AI-челлендже по построению RAG-пайплайна поверх корпуса судебных решений и законов. Соло, с Claude Code в качестве напарника. За 5 дней и 17 итераций прошёл путь от 0.034 до 0.791 на warmup — а потом вышел в финал и потерял 42% на 300 документах вместо 30. Внутри — архитектура, код, математика F-beta, три провала и честный разбор работы с AI-ассистентом.

https://habr.com/ru/articles/1014758/

#RAG #retrieval_augmented_generation #legal_AI #Claude #grounding #BM25 #reranking #NLP #соревнование

От 0.034 до 0.791 и обратно: Legal RAG, 17 итераций и стена масштабирования

От 0.034 до 0.791 и обратно: соревнование по Legal RAG, 17 итераций и стена масштабирования Мне давно хотелось погрузиться в RAG, но повода не было. Я решил поучаствовать в ARLC 2026 — юридическом...

Хабр

Step-by-step RAG tutorial: build retrieval-augmented generation systems with vector databases, hybrid search, reranking, and web search. Architecture, implementation, and production best practices.

#AI #LLM #RAG #Embeddings #Reranking #Vector Database #Fine-Tuning

https://www.glukhov.org/rag/

Retrieval-Augmented Generation (RAG) Tutorial: Architecture, Implementation, and Production Guide

Step-by-step RAG tutorial: build retrieval-augmented generation systems with vector databases, hybrid search, reranking, and web search. Architecture, implementation, and production best practices.

Rost Glukhov | Personal site and technical blog
Retrieval-Augmented Generation (RAG) Tutorial: Architecture, Implementation, and Production Guide:
https://www.glukhov.org/rag/
#AI #LLM #RAG #Embeddings #Reranking #VectorDatabase
Retrieval-Augmented Generation (RAG) Tutorial: Architecture, Implementation, and Production Guide

Step-by-step RAG tutorial: build retrieval-augmented generation systems with vector databases, hybrid search, reranking, and web search. Architecture, implementation, and production best practices.

Rost Glukhov | Personal site and technical blog

Tìm kiếm thuật toán tương tự chuỗi tốt nhất cho RAG mà không cần mô hình. Các lựa chọn gồm Levenshtein, Jaccard, Soundex... #RAG #ThuậtToánTươngTự #NonModelBased #TìmKiếm #StringSimilarity # Algorithm #TươngTựChuỗi #Reranking

https://www.reddit.com/r/LocalLLaMA/comments/1p5ua3s/what_are_the_best_options_for_nonmodel_based/

500만 문서 RAG 구축 실전 기록: ROI 높은 5가지 핵심 전략

500만 개 이상의 문서를 처리한 8개월간의 RAG 구축 실전 경험. 프로토타입과 프로덕션의 간극을 메우는 ROI 높은 5가지 핵심 전략과 검증된 기술 스택을 소개합니다.

https://aisparkup.com/posts/5752