Где заканчивается вызов LLM и начинается backend система: локальный RAG на FastAPI и Ollama
Хотел разобраться где заканчивается простой вызов локальной LLM и начинается backend система. Сначала всё выглядело просто: frontend отправляет вопрос, FastAPI принимает POST /ask, backend вызывает локальную модель через Ollama и возвращает ответ. Но стало понятно: для помощника по документации этого мало. Модель отвечает, но непонятно на какие документы она опирается, какие фрагменты попали в prompt, сколько времени занял каждый этап и что делать, если индекс устарел. В статье показываю не "как вообще устроен RAG", а путь от простого вызова локальной LLM к небольшому backend/RAG-проекту с API контрактом, request_id, логированием, sources, timings, rebuild index, negative tests и честными ограничениями. От LLM вызова к RAG системе
https://habr.com/ru/articles/1048252/
#rag #llm #fastapi #ollama #python #backend #embeddings #vector_store #request_id #локальная_llm