Почему RAG — это не просто «добавить поиск»: latency, качество и выбор стратегии retrieval

Когда говорят про RAG, его часто описывают как простой способ улучшить LLM‑систему: добавить поиск по внешним данным, найти релевантный контекст, передать его модели и получить более точный ответ. На уровне идеи это действительно выглядит логично. Но в реальной системе RAG — это не только способ обогатить ответ. Это отдельный операционный слой, который влияет на задержку, размер prompt, количество input tokens, стоимость запроса, качество ответа, SLA и требования к наблюдаемости системы. Я хотел посмотреть на это не в формате общих рассуждений, а на небольшом локальном стенде: где именно появляется дополнительная нагрузка, какие параметры сильнее всего влияют на latency, почему больше контекста не всегда означает лучшее качество и почему стратегия retrieval должна зависеть от типа вопроса и структуры данных. Это не промышленный benchmark и не попытка получить универсальные цифры. Скорее серия контролируемых экспериментов: посмотреть на механику RAG pipeline и компромиссы, которые часто остаются за кадром, когда RAG описывают просто как «поиск + LLM».

https://habr.com/ru/articles/1040938/

#RAG #LLM #retrieval #latency #Chroma #Ollama #vector_search #embeddings #topk #chunk_size

Почему RAG — это не просто «добавить поиск»: latency, качество и выбор стратегии retrieval

Главное: RAG — это не просто «поиск + LLM». В локальном эксперименте основная дополнительная нагрузка появилась не в vector DB, а в embedding запроса, росте...

Хабр
How We Optimized Top K in Postgres

How ParadeDB uses principles from search engines to optimize Postgres' Top K performance.

🚀 Đã tối ưu Top‑K cho LLM, nhanh gấp 4‑20× so với PyTorch CPU nhờ AVX2 SIMD. Benchmarks (K=50): vocab 32K → 0.043 ms vs 0.173 ms; 128K → 0.057 ms vs 0.777 ms; 256K → 0.079 ms vs 1.56 ms. Tích hợp vào llama.cpp, tăng tốc 63% (81→142 token/s) trên mô hình 120B MoE. Không cần GPU. #AI #LLM #MachineLearning #TopK #Performance #TốiƯu #TốcĐộ

https://www.reddit.com/r/LocalLLaMA/comments/1qh0yq8/i_made_a_topk_implementation_thats_up_to_20x/

Bài viết phân tích ảnh hưởng của tham số topk trong mô hình LLaMA khi điều chỉnh tỷ lệ token chọn (ví dụ: topk=0 giảm tốc độ từ 160t/s xuống còn 100t/s). Đề xuất kiểm tra khả năng tối ưu hóa bằng công cụ logprobs và so sánh giữa llama.cpp và vllm. #AI #ML #LLaMA #topk #TốiUĐA #KỹThuật #CôngNghệ

https://www.reddit.com/r/LocalLLaMA/comments/1ppei5j/putting_topk_to_bed_once_and_for_all/

The Case of the Vanishing #Hit Count: Rethinking Query Craftsmanship in a Post-Boolean World— Reflections from Day 2 of my FSCI 2025 workshop on AI‑powered search

👉 Understanding the Shift from Exact #Boolean Hits to the "Top-k" Results of #SemanticSearch and the Evaluated Hits of #DeepSearch.

By Aaron Tay

https://open.substack.com/pub/aarontay/p/the-case-of-the-vanishing-hit-count

#SearchEvolution #AcademicSearchChallenges #Discovery #InformationDiscovery #InformationLiteracy #infolit #TopK #SearchStrategy #booleanoperations #HitCount

The Case of the Vanishing Hit Count: Rethinking Query Craftsmanship in a Post-Boolean World— Reflections from Day 2 of my FSCI 2025 workshop on AI‑powered search

Understanding the Shift from Exact Boolean Hits to the "Top-k" Results of Semantic Search and the Evaluated Hits of Deep Search.

Aaron Tay's Musings about Librarianship

Cracking the TOPIK II Writing –Complete Guide to Questions 51–54

If you’re preparing for the TOPIK II Writing section, mastering the writing tasks from questions 51 to 54 is essential for a high score. Cracking the TOPIK II Writing is a comprehensive study guide designed specifically to help Korean learners tackle these questions with confidence.

https://www.koreantopik.com/2021/11/cracking-topik-2-writing-ebook-review.html

#topk #topikwriting #topik2 #learnkorean #topikguide #koreantopik #crackingtopik #topikmaster

Cracking the TOPIK II Writing PDF–Complete Guide to Questions 51–54

If you’re preparing for the TOPIK II Writing section , mastering the writing tasks from questions 51 to 54 is essential for a high score. C...

Blogger

Krótkie porównanie kabli z końcówkami #magnetycznymi dostępnych na polskim rynku uwzględniając różne końcówki i możliwości.

1.okrągłe USB-A -> USB-A/C Intermarche tylko zasilanie, zestaw wszystkie końcówki w cenie około 20zł
2. płaskie 4 piny, #TOPK, #USB-A -> USB A/C dane, A..o TOPK, kable z wybraną końcówką
3. płaskie 5 pinów TOPK #USB-C -> USB-C dane, A..o TOPK, #kable z wybraną końcówką

A..o to znany portal i użytkownik.

Porównanie będzie uzupełniane w miarę 'sił i środków'.