SLAVA — бенчмарк социально‑политического ландшафта и ценностного анализа
Большой обзор: от идеи и структуры — до неожиданных выводов и практических сценариев применения SLAVA — это открытый русскоязычный бенчмарк, разработанный экспертами РАНХиГС и ИСП РАН для проверки, как большие языковые модели справляются с фактологическими и ценностно нагруженными вопросами по истории, обществознанию, географии и политологии. В корпусе — 14 199 заданий пяти форматов и трёх уровней провокационности. Уже протестировано более 40 моделей: от GPT‑4o и Claude‑3.5 до GigaChat и Llama‑3 8B. Это открытый русскоязычный бенчмарк, созданный для проверки, как большие языковые модели справляются с фактологическими и ценностно нагруженными вопросами из истории, географии, обществознания и политологии. Мы расскажем: