Mastodawn

Как оценить, что цепь трансформера «держит причинную логику»: метрика EICS

У больших языковых моделей есть неприятное свойство: снаружи ответ может выглядеть одинаково уверенно и тогда, когда модель действительно «собрала» правильную причинную цепочку, и тогда, когда она просто выдала правдоподобный текст. Классические способы оценки неопределённости — энтропия распределения токенов, калибровка, ансамбли, conformal prediction — полезны, но обычно смотрят на модель как на чёрный ящик. В этой статье я разберу другой подход: попробовать оценивать неопределённость не только по выходу модели, а по внутренней согласованности активной цепи трансформера. Речь пойдёт о метрике EICS — Effective Information Consistency Score . Идея в том, чтобы за один прямой проход получить численную оценку того, насколько найденная трансформерная цепь ведёт себя согласованно и насколько её макроуровневое описание действительно несёт интегрированную информацию. Статья основана на исследовательской работе об оценке неопределённости в трансформерных цепях на основе согласованности эффективной информации. Здесь я намеренно смягчил академическую подачу, оставив интуицию, формулы, алгоритм и практические ограничения. Снять неопределённость

https://habr.com/ru/articles/1033580/

#uncertainty_estimation #transformers #sheaf_theory #causal_emergence_theory #information_theory #mechanistic_interpretability #llm

Метрика EICS — ищем у трансформера причинное место

Неопределённость как потеря причинной согласованности внутри цепи У больших языковых моделей есть неприятное свойство: снаружи ответ может выглядеть одинаково уверенно и тогда, когда модель...

Хабр

Habr Mar 10

Как я поймал Трансформер на читерстве: гроккинг, математика и Mechanistic Interpretability

Феномен Grokking и Mechanistic Interpretability — главные тренды в исследованиях лабораторий уровня OpenAI и Anthropic. Я решил потрогать эти концепции своими руками на уровне тензоров. Цель казалась тривиальной: заставить кастомный микро-Трансформер (всего 1М параметров) выучить базовую арифметику с нуля. Однако вместо математического гения я получил ленивого мошенника. Эта статья — инженерный детектив о том, как нейросети пытаются нас обмануть (Specification Gaming), и как вскрытие Attention-матриц помогает поймать их за руку. Вскрыть Трансформер

https://habr.com/ru/articles/1008656/

#machine_learning #transformers #grokking #mechanistic_interpretability #pytorch #specification_gaming #ai_alignment

Как я поймал Трансформер на читерстве: гроккинг, математика и Mechanistic Interpretability

Хабр

Habr Feb 10

Я измерил «личность» 6 open-source LLM (7B-9B), заглянув в их hidden states. Вот что получилось

У LLM есть устойчивый стиль ответов даже без системного промпта. Я построил инструмент, который измеряет этот «характер» через проекции скрытых состояний на 7 контрастных осей (тёплый/холодный, многословный/лаконичный и др.) и протестировал его на 6 open-weight моделях 7–9B. Главный результат: alignment-тренировка сжимает поведенческое пространство моделей — подавляет оси позиции (уверенность, прямолинейность), сохраняя оси стиля (креативность, многословность). Llama 3.1 8B — самая ограниченная (4/7 осей в слабой зоне), DeepSeek 7B сохраняет наибольшую независимость осей. Сравнение base vs instruct для 5 организаций подтверждает паттерн. Код и данные открыты.

https://habr.com/ru/articles/994646/

#LLM #alignment #hidden_states #personality #temperament #RLHF #opensource #mechanistic_interpretability

Я измерил «личность» 6 open-source LLM (7B-9B), заглянув в их hidden states. Вот что получилось

У LLM есть устойчивые «личности», даже если вы об этом не просили. DeepSeek — восторженный друг, который объясняет всё в три раза подробнее, чем нужно. Llama — пугающе нейтральный (4 из 7 осей в...

Хабр

Habr Jan 16

Почему ваша нейросеть всегда предаст вас ради вежливого хакера с плохими намерениями?

Дисклеймер: Эта статья — не руководство по взлому (How-to) и не сборник эксплойтов. Это попытка системного анализа архитектурных ограничений LLM, которые делают промпт-инъекции фундаментальной проблемой на текущем этапе развития технологий. Мы рассмотрим уязвимости через призму механики Attention, токенизации и RLHF, чтобы понять, почему классические детерминированные методы защиты (Black Box) здесь перестают работать. Открыть Белый Ящик

https://habr.com/ru/articles/986012/

#AI_Security #Prompt_Injection #Jailbreak #Transformer #RLHF #Red_Teaming #Alignment #Tokenization #Mechanistic_Interpretability

Почему ваша нейросеть всегда предаст вас ради вежливого хакера с плохими намерениями?

Хабр