PageIndex: замена векторному поиску в RAG?
Попытки заменить чем-то векторный поиск в RAG продолжаются. Про GraphRAG я уже высказывался , новый претендент на замену - Pageindex. Идея простая. Сегментируем документ на страницы, при помощи LLM и хитрого кода строим для него таблицу содержания, TOC с деревом узлов и саммари для каждого узла. Далее отправляем эту структуру в промпт поискового запроса и просим LLM найти релевантные узлы. За каждым найденным узлом закреплены страницы документа. Эти страницы достаём и используем в качестве контекста в финальном запросе. Нет чанков, не нужны эмбеддинги и векторные хранилища. Выглядит заманчиво. Попытаюсь добавить к этой идее немного критики и заодно расскажу как эту штуку запустить локально.
https://habr.com/ru/articles/1017318/
#rag #text_mining #text_generation #indexing #ollama #litellm