🌗 微調本地大型語言模型以優化問題分類
➤ 從 10% 到 80%:超輕量模型微調的實戰演練
https://www.teachmecoolstuff.com/viewarticle/fine-tuning-a-local-llm-to-categorize-questions
本文記錄了作者為家庭 AI 聊天室構建分類系統的實驗過程。為了精確執行檢索增強生成(RAG),作者旨在通過微調一個僅 6 億參數的小型模型(Qwen 3:0.6B),使其成為高效的問題分類器,進而縮小向量數據庫的檢索範圍。作者對比了零樣本提示(Zero-shot Prompting)與模型微調後的表現,結果顯示微調能將分類準確率從 10% 大幅提升至近 80%。透過此實驗,作者證實了針對特定任務微調超輕量模型是實現自動化分類的高性價比方案。
+ 這篇文章非常實用!對於不想在生產環境中運行龐大模型的人來說,這種針對特定任務進行小模型微調的思路非常有啟發性。
+ 很有意思的實驗,特別是在 RAG 流程中加入元數據分類層
#人工智慧 (AI) #大型語言模型 (LLM) #模型微調 #RAG (檢索增強生成)
Fine Tuning a Local LLM to Categorize Questions

<p>As a fun personal project, I have been working on a chatbot for answering general questions about my household on anything from maintenance questions to doctor’s appointments. </p> <p> The general idea is that the chatbot will get its household knowledge through RAG from querying a vector database, but for better results I have made the vector searches metadata aware. </p> <p> Basically, I am running questions through a pre-processing step to categorize questions into known metadata categories (e.g. pool, car, hvac, cooking). The main goal of this is to narrow down the search space for vector ranking to only indexed entries that match the category of the question. As an example, the question “When did we replace our pool pump?” will be mapped to a category called “pool” before querying the Index database. </p>

RAG не только для вопросов и ответов: почему он естественно подходит для рекомендаций

Retrieval-Augmented Generation (RAG) чаще всего рассматривается в контексте вопросно-ответных систем и чат-ботов поверх базы знаний. Большинство публикаций и руководств по RAG посвящено схеме «вопрос – ответ с опорой на документы». Однако внутренняя механика RAG – семантический поиск в сочетании с генерацией ответа на основе найденного – хорошо ложится и на другую задачу, которую традиционно решают иными методами: на рекомендации. Цель настоящей статьи – показать, что RAG представляет собой недоиспользованный, но обоснованный инструмент для рекомендательных систем, и разобрать, на каких именно ограничениях классических рекомендателей он выигрывает и где проходят его границы. В качестве сквозного примера рассматривается рекомендательная система книг по запросу в свободной форме. При этом основным предметом рассмотрения является сам подход, а не конкретная реализация.

https://habr.com/ru/articles/1050196/

#rag #nlp #рекомендательные_системы #machine_learning #llm #информационный_поиск #faiss #эмбеддинги

RAG не только для вопросов и ответов: почему он естественно подходит для рекомендаций

Retrieval-Augmented Generation (RAG) чаще всего рассматривается в контексте вопросно-ответных систем и чат-ботов поверх базы знаний. Большинство публикаций и руководств по RAG посвящено схеме «вопрос...

Хабр
Learned #RAG and #Agents for using the #LLM Api with free #LLMZoomCamp course of #DataTalksClub .

Build self-hosted AI systems with OpenClaw, Hermes, RAG, and local LLM infrastructure. Learn to orchestrate assistants with memory, retrieval, routing, and observability.

#AI #LLM #SelfHosting #OpenClaw #Hermes #RAG #Observability

https://www.glukhov.org/ai-systems/

AI Systems: Self-Hosted Assistants, RAG, and Local Infrastructure

Build self-hosted AI systems with OpenClaw, Hermes, RAG, and local LLM infrastructure. Learn to orchestrate assistants with memory, retrieval, routing, and observability.

Rost Glukhov | Personal site and technical blog

Before you generate, retrieve.

Did we solve this, reject this, leave a receipt? Retrieval turns one-off answers into a library. Generation alone is amnesia at scale.

#AIWorkflow #RAG #AIAutomation #KyaniteLabs

Watch: https://www.youtube.com/watch?v=LzYV3ayvNU8

Retrieve Before You Generate

YouTube

Etablování #DigitalIdentityOptimization (#DIO) coby isciplíny by #GPT-5.5-search

#DigitalniIdentita - optimalizujete pro lidi, nebo pro stroje? Musí být neprůstřelná ze všech stran

DIO je disciplína - meta: #psychologie, #semiotika, #branding, #AI... Usiluje o #koherence napříč #LatentSpaces a #RAG #AI pipelines:
- #semanticentity engineering
- #discoursanalysis & hegemonic strategies
- #EEAT coherence
- #AIGovernance
- human/machine interpretative spaces

https://www.slideshare.net/slideshow/fixace-digital-identity-optimization-dio-coby-samostatne-discipliny-by-gpt-5-5-search/288132767#10

Fixace Digital Identity Optimization (DIO) coby samostatné disciplíny; by GPT-5.5-search

Explores Digital Identity Optimization as a unique discipline integrating psychology, semiotics, branding, technology, and AI to optimize digital entities across human and machine interpretative spaces. - Download as a PDF or view online for free

Slideshare

Etablování #DigitalIdentityOptimization (#DIO) coby isciplíny by #GPT-5.5-search

#DigitalniIdentita - optimalizujete pro lidi, nebo pro stroje? Musí být neprůstřelná ze všech stran

DIO je disciplína - meta: #psychologie, #semiotika, #branding, #AI... Usiluje o #koherence napříč #LatentSpaces a #RAG #AI pipelines:
- #semanticentity engineering
- #discoursanalysis & hegemonic strategies
- #EEAT coherence
- #AIGovernance
- human/machine interpretative spaces

https://www.slideshare.net/slideshow/fixace-digital-identity-optimization-dio-coby-samostatne-discipliny-by-gpt-5-5-search/288132767#10

Fixace Digital Identity Optimization (DIO) coby samostatné disciplíny; by GPT-5.5-search

Explores Digital Identity Optimization as a unique discipline integrating psychology, semiotics, branding, technology, and AI to optimize digital entities across human and machine interpretative spaces. - Download as a PDF or view online for free

Slideshare

Retrieval в 2026: как RAG переехал с энкодеров на LLM (и что с этим делать в своём проекте)

Если вы строили RAG в 2023, ваш стек выглядел плюс-минус одинаково. BERT-семейство (BGE, e5) для семантики, BM25 для буквальных совпадений, cross-encoder для реранкинга, какой-нибудь Qdrant сверху. Этим жили два года, и многие до сих пор так живут. Но если посмотреть, кто реально гоняется в продакшене у команд, которые ушли вперёд, ландшафт другой. Энкодеров там почти нет. Эмбеддит файнтюненная LLM. Реранкер — тоже LLM. Инференс на SGLang, а не на ONNX. И вся обвязка перестроилась под это. Эта статья про то, что поменялось и как переиспользовать этот стек у себя. Особенно если вы работаете в узком домене, где готовых датасетов нет.

https://habr.com/ru/articles/1049872/

#RAG #эмбеддинги #embeddings #retrieval #LLM #Qwen3 #Qdrant #vector_search #hard_negatives #LLM2Vec

Retrieval в 2026: как RAG переехал с энкодеров на LLM (и что с этим делать в своём проекте)

Если вы строили RAG в 2023, ваш стек выглядел плюс-минус одинаково. BERT-семейство (BGE, e5) для семантики, BM25 для буквальных совпадений, cross-encoder для реранкинга, какой-нибудь Qdrant сверху....

Хабр
🔗 Building RAG in Laravel: Four Ingestion Bugs That Silently Wreck Retrieval
https://mujahidabbas.dev/blog/building-rag-laravel-pgvector/
#php #laravel #ai #rag #vectordatabase
Building RAG in Laravel: Four Ingestion Bugs That Silently Wreck Retrieval - Blog

Every Laravel RAG tutorial builds the same ingestion pipeline and never checks if it works. Four decisions — chunking, the pgvector index operator, embedding dimensions, the model lock — quietly wreck retrieval with no error. Here's each bug, and how the eval catches it.

Mujahid Abbas - Full Stack Developer

Several points to pay attention to when writing prompts for LLMs - to make them effective

#LLM #AI #Ollama #RAG

https://www.glukhov.org/llm-architecture/prompt-engineering/writing-effective-llm-prompts/