Дешёвая модерация анонимной стены: 3-слойный каскад и ROT13-джейлбрейк в проде
Построили модерацию для открытой анонимной мультиязычной стены — дешёвый каскад (regex → классификатор → LLM-судья → fallback), ≈$0 на API. И кто-то попытался обойти его ROT13-джейлбрейком, LLM-судья раскусил закодированную инъекцию, которую keyword-фильтр бы пропустил. Разбор архитектуры, экономики и того, что спросил r/selfhosted.
https://habr.com/ru/articles/1041430/
#модерация_контента #LLM #jailbreak #ROT13 #FastAPI #selfhosted




🍵 