Бенчмарк 7 эмбеддингов и 4 реранкеров на корпусе судебной практики

Привет, Хабр. Это мой первый пост здесь, поэтому пара слов о себе. Я практикующий юрист, 8+ лет практики, последние годы - в производственном секторе. Веду договорную работу (поставка, подряд, услуги), сопровождаю сделки, закрываю претензионку и представляю компанию в арбитражных судах и спорах по защите прав потребителей - на стороне производителя и поставщика. К коду пришёл через вайбкодинг: захотелось автоматизировать некоторые процессы, начал ковыряться в VS Code, Trae, Cursor и Claude Code, втянулся - и теперь это параллельное хобби рядом с основной практикой. Последние несколько месяцев пилю IP Agent - телеграм-бота, который по запросу находит релевантную судебную практику и даёт прогноз по размеру компенсации в делах об интеллектуальной собственности. Работает на RAG-пайплайне. Когда строишь поиск по узкому домену, рано или поздно встаёт вопрос: какой эмбеддинг брать и нужен ли вообще реранкер. Готовых ответов под русскую судебную практику я не нашёл, поэтому собрал свой бенчмарк. В посте - что меряли, как меряли, что получилось и что в итоге поставил в бота.

https://habr.com/ru/articles/1030706/

#RAG #embeddings #эмбеддинги #реранкер #reranker #nDCG #информационный_поиск #юридический_ИИ #USER2base #бенчмарк

Бенчмарк 7 эмбеддингов и 4 реранкеров на корпусе судебной практики

Привет, Хабр. Это мой первый пост здесь, поэтому пара слов о себе. Я практикующий юрист, 8+ лет практики, последние годы - в производственном секторе. Веду договорную работу (поставка, подряд,...

Хабр

Зачем мне пылесос с ананасом или как оценить корректность рекомендательной системы

Привет, Хабр! На связи участница профессионального сообщества NTA Ульянова Дарья. Каждый день, выполняя рутинные действия, мы сталкиваемся с рекомендательными системами. Их предложения часто попадают прямо в цель, и иногда создается впечатление, что кто‑то читает твои мысли. Сегодня буду разбираться с тем, как оцениваются рекомендательные системы, какие метрики качества используются, и как затем измеряется эффективность их работы для бизнеса. Это полезно при оценке сервисов с рекомендательными системами, ведь часто нам приходят чисто статистические данные, в которых надо разобраться, и дать объективную оценку проекту. К метрикам recsys

https://habr.com/ru/articles/779038/

#recsys #recommender_systems #RMSE #метрики #Precision@k #Recall@k #MAP@k #NDCG@k

Зачем мне пылесос с ананасом или как оценить корректность рекомендательной системы

Привет, Хабр! На связи участница  профессионального сообщества NTA  Ульянова Дарья. Рекомендательные системы стали нормой, все к ним привыкли точно также как и к быстрому...

Хабр

On my blog: Metrics to evaluate Search Results

https://heidloff.net/article/search-evaluations/

#AI #LLM #GenAI #RAG #NDCG #MAP

Metrics to evaluate Search Results

Via Retrieval Augmented Generation search results can be passed as context into prompts to Large Language Models to support the models to generate good responses. Passing the right search results is essential. This post describes different metrics to measure how good search results are.

Niklas Heidloff