Где заканчивается вызов LLM и начинается backend система: локальный RAG на FastAPI и Ollama

Хотел разобраться где заканчивается простой вызов локальной LLM и начинается backend система. Сначала всё выглядело просто: frontend отправляет вопрос, FastAPI принимает POST /ask, backend вызывает локальную модель через Ollama и возвращает ответ. Но стало понятно: для помощника по документации этого мало. Модель отвечает, но непонятно на какие документы она опирается, какие фрагменты попали в prompt, сколько времени занял каждый этап и что делать, если индекс устарел. В статье показываю не "как вообще устроен RAG", а путь от простого вызова локальной LLM к небольшому backend/RAG-проекту с API контрактом, request_id, логированием, sources, timings, rebuild index, negative tests и честными ограничениями. От LLM вызова к RAG системе

https://habr.com/ru/articles/1048252/

#rag #llm #fastapi #ollama #python #backend #embeddings #vector_store #request_id #локальная_llm

Где заканчивается вызов LLM и начинается backend система: локальный RAG на FastAPI и Ollama

На практике хотел понять где заканчивается простой вызов локальной LLM и начинается backend система: с API контрактом, логированием, request_id, источниками, индексом документов, диагностикой и...

Хабр