RepE — как активационная инъекция влияет на энтропию, деградацию и качество ответов LLM?

Современные большие языковые модели достигли впечатляющих результатов в генерации текста, однако они до сих пор остаются жуткой стохастикой. На мой взгляд проблема текущего ИИ заключается не в синтетических обучающих данных или архитектурных ограничениях, а в отсутствии внутренней верификации . Для LLM галлюцинация и факт онтологически равноценны: и то, и другое — лишь вероятностная последовательность токенов, максимизирующая правдоподобие. Стандартные методы донастройки, такие как RLHF, часто еще сильнее ухудшают ситуацию: они учат модель казаться правильной и вежливой, создавая маску дружелюбного ассистента, но не меняют глубинные механизмы принятия решений. В результате мы получаем модели, которые полноценно врут даже там, где их знаний возможно хватило бы для правильного ответа на вопрос. Данная работа посвящена изучению методов Representation Engineering (RepE) — подхода, который позволяет проникать в активационные слои нейросетей и слегка усиливать отдельные вектора. В отличии от классического промпт инженеринга мы не задаем роль, а правим внутреннюю генерацию ответа, можно сказать точечно правим "веса" хоть это в действительности и не так. Цель - проверка того, может ли выделение и активация специфических семантических векторов служить функциональным регулятором генерации - и как в целом это выделение влияет на модель. Возможно ли таким методом снизить энтропию или получить сравнительно лучшие ответы от модели.

https://habr.com/ru/articles/981520/

#ai #ml #repe #активации #gemma #gptoss #Owen #вектор #скрытый_слой #искусственный_интеллект

RepE — как активационная инъекция влияет на энтропию, деградацию и качество ответов LLM?

Современные большие языковые модели достигли впечатляющих результатов в генерации текста, однако они до сих пор остаются жуткой стохастикой. На мой взгляд проблема текущего ИИ заключается не в...

Хабр
Things David likes

A tiny p by leo.roos

Tumblr
Thank you to @RNAO for your advocacy to protect public healthcare. The healthcare crisis deepens as Ford rejects solutions for staffing shortages. With caring registered nurses like Prasha, I know Ontarians can get the quality of care they deserve. #Repehttps://twitter.com/kristynwongtam/status/1745555544083943923/photo/1
Kristyn Wong-Tam 🇨🇦 (@kristynwongtam) on X

Thank you to @RNAO for your advocacy to protect public healthcare. The healthcare crisis deepens as Ford rejects solutions for staffing shortages. With caring registered nurses like Prasha, I know Ontarians can get the quality of care they deserve. #RepealBill124 #ONpoli

X (formerly Twitter)
@boligorria barkatu baina hau ya esanda zegoen #zaharruno #repe #buu