Pollux: LLM-as-a-judge для русского

Прошло несколько лет с тех пор, как нейросетевые модели стали применимы в генерации текста. Сегодня языковые модели уверенно решают задачи написания кода, поддержки диалогов и планирования маршрутов. Тем не менее, до сих пор не сложилось универсального подхода для валидации LLM перед их внедрением в цифровые продукты. Но у нас есть решение! В этой статье я расскажу, как мы в Sber AI обучили специализированного LLM-судью (LLM-as-a-Judge) Pollux для оценки русскоязычных LLM. Мы выложили его в открытый доступ и вы можете встроить его в свой продукт уже сегодня. Читать далее и оценивать

https://habr.com/ru/companies/sberbank/articles/1036650/

#llmагент #llmмодели #llm #llmasajudge #rag #метрики_продукта

Pollux: LLM-as-a-judge для русского

Прошло несколько лет с тех пор, как нейросетевые модели стали применимы в генерации текста. Сегодня языковые модели уверенно решают задачи написания кода, поддержки диалогов и планирования маршрутов....

Хабр

Mesurer l’immesurable : Comment évaluer les systèmes à base d’IA générative ?

https://video.ut0pia.org/w/amqXg4X9a269LvHvq4xTrN

Mesurer l’immesurable : Comment évaluer les systèmes à base d’IA générative ?

PeerTube

CrabTrap: protegé tus agentes IA en producción

CrabTrap es el proxy HTTP open source de Brex que protege agentes IA en producción con LLM-as-a-judge. Conocé cómo funciona y por qué importa en 2026.

https://blog.donweb.com/crabtrap-seguridad-agentes-ia-produccion/

#crabtrap #agentesia #seguridadia #llmasajudge #promptinjection

CrabTrap: seguridad para agentes IA en producción

CrabTrap es el proxy HTTP open source de Brex que protege agentes IA en producción con LLM-as-a-judge. Conocé cómo funciona y por qué importa en 2026.

Blog Donweb

프롬프트, 이제는 LLM이 평가한다

프롬프트 품질, 이제는 감이 아니라 데이터로 판단합니다.
Prometheus 2와 GPT-4.1을 활용해 LLM이 다른 LLM 응답을 평가하는 'LLM-as-a-Judge' 실전 사례를 인포그랩이 공유합니다.

프롬프트 최적화는 이제 자동화되는 영역입니다. 더 이상 사람의 감각에 의존할 수 없습니다.

#LLM평가 #프롬프트엔지니어링 #Prometheus2 #GPT4.1 #LLMasaJudge
https://news.mrlatte.net/posts/2025/06/11/llm-as-a-judge-prompt-eval/

프롬프트, 이제는 LLM이 평가한다

프롬프트 품질, 이제는 감이 아니라 데이터로 판단합니다. Prometheus 2와 GPT-4.1을 활용해 LLM이 다른 LLM 응답을 평가하는 'LLM-as-a-Judge' 실전 사례를 인포그랩이 공유합니다.

라떼군 뉴스