Mastodawn

Как я поймал Трансформер на читерстве: гроккинг, математика и Mechanistic Interpretability

Феномен Grokking и Mechanistic Interpretability — главные тренды в исследованиях лабораторий уровня OpenAI и Anthropic. Я решил потрогать эти концепции своими руками на уровне тензоров. Цель казалась тривиальной: заставить кастомный микро-Трансформер (всего 1М параметров) выучить базовую арифметику с нуля. Однако вместо математического гения я получил ленивого мошенника. Эта статья — инженерный детектив о том, как нейросети пытаются нас обмануть (Specification Gaming), и как вскрытие Attention-матриц помогает поймать их за руку. Вскрыть Трансформер

https://habr.com/ru/articles/1008656/

#machine_learning #transformers #grokking #mechanistic_interpretability #pytorch #specification_gaming #ai_alignment

Как я поймал Трансформер на читерстве: гроккинг, математика и Mechanistic Interpretability

Хабр

Hacker News Jan 20

Which AI Lies Best? A game theory classic designed by John Nash
https://so-long-sucker.vercel.app/
#ycombinator #AI_deception #AI_benchmark #Gemini_3 #GPT #LLM_evaluation #AI_safety #game_theory #John_Nash #betrayal_game #AI_alignment #machine_learning #artificial_intelligence #AI_behavior #deception_detection

Which AI Lies Best? Gemini 3 Manipulates Weaker Models, Cooperates With Itself

162 games analyzed: AI deception is strategic, not intrinsic. Watch Gemini 3 create fake 'alliance banks' to betray GPT and Kimi, but cooperate perfectly with copies of itself.

So Long Sucker

Hacker News Jan 20

Which AI Lies Best? LLMs play a 1950s betrayal game by John Nash
https://so-long-sucker.vercel.app/
#ycombinator #AI_deception #AI_benchmark #Gemini_3 #GPT #LLM_evaluation #AI_safety #game_theory #John_Nash #betrayal_game #AI_alignment #machine_learning #artificial_intelligence #AI_behavior #deception_detection

Which AI Lies Best? Gemini 3 Manipulates Weaker Models, Cooperates With Itself

162 games analyzed: AI deception is strategic, not intrinsic. Watch Gemini 3 create fake 'alliance banks' to betray GPT and Kimi, but cooperate perfectly with copies of itself.

So Long Sucker

Habr Jan 5

Скрытые сигналы: как модели учатся тому, чего нет в данных

LLM учатся не только тому, чему мы пытаемся их научить. Вместе с задачами, метками и инструкциями они усваивают и побочные сигналы, которые мы воспринимаем как шум или случайность. Исследование международной группы учёных показало, что такие подпороговые сигналы могут работать как канал передачи поведения между моделями. Даже если убрать все явные инструкции, то стиль рассуждений, стратегии ответов и другие поведенческие признаки все равно просочатся через данные, которые семантически с ними никак не связаны. Авторы называют этот эффект сублиминальным обучением. Мы можем удалить метки, отфильтровать инструкции и проверить датасет вручную, и всё равно передать модели поведение, которое не планировали передавать.

https://habr.com/ru/companies/beget/articles/980960/

#сублиминальное_обучение #chainofthought #transfer_learning #машинное_обучение #ии #llm #датасеты_обучения #ai_alignment

Скрытые сигналы: как модели учатся тому, чего нет в данных

Изображение: Scientific American LLM учатся не только тому, чему мы пытаемся их научить. Вместе с задачами, метками и инструкциями они усваивают и побочные сигналы, которые мы воспринимаем как шум или...

Хабр

Hacker News Sep 11, 2025

Center for the Alignment of AI Alignment Centers
https://alignmentalignment.ai
#ycombinator #ai_alignment #alignment #alignment_centers #caaac

Center for the Alignment of AI Alignment Centers

We align the aligners

CAAAC

Hacker News Aug 30, 2025

Sleeper AI agents and how Anthropic detects them [video]
https://www.youtube.com/watch?v=Z3WMt_ncgUI
#ycombinator #Anthropic #AI_Safety #Alignment #Sleeper_Agents #AI_alignment

AI Sleeper Agents: How Anthropic Trains and Catches Them

YouTube

Habr Aug 7, 2025

[Перевод] Будущее, в котором ИИ — герой, а не злодей

Эра искусственного интеллекта уже наступила — и люди, мягко говоря, в панике. К счастью, я здесь, чтобы рассказать хорошие новости: AI не уничтожит мир, а наоборот, вполне может его спасти. Для начала короткое описание того, что такое AI : это применение математики и программного кода для обучения компьютеров понимать, синтезировать и генерировать знания примерно так же, как это делают люди. AI — это программа, как и любая другая: она запускается, принимает входные данные, обрабатывает их и выдаёт результат. Причём output AI полезен в самых разных областях — от программирования до медицины, юриспруденции и искусства. Её владеют и контролируют люди, как и любой другой технологией. А теперь коротко о том, чем AI не является : это не какие-то «убийственные программы» и роботы, которые внезапно оживут и решат уничтожить человечество или развалить всё вокруг, как это показывают в фильмах . И еще короче о том, чем AI может стать : способом сделать лучше всё, что нам действительно важно.

https://habr.com/ru/articles/933024/

#ai #artificial_intelligence #ии #искусственный_интеллект #ai_alignment

Будущее, в котором ИИ — герой, а не злодей

Хабр

Habr Jun 18, 2025

ИИ агенты и хлопобуды

2025 год объявлен годом расцвета ИИ агентов — самостоятельных (автономных) помощников в выполнении полезной работы. Как обычно, хайпу в этих публикациях хоть отбавляй, поэтому вдумчивые читатели пытаются пробраться через этот хайп к истине. Нам в компании IDX это тоже важно, потому что по нашим представлениям появление работающих ИИ агентов существенно поменяет ландшафт обработки персональных данных (ПД). Мы приступили к работе над серьезным аналитическим отчетом о прогрессе ИИ агентов и его влиянии на ПД, что потребует некоторого времени.В этой же и последующих заметках мы будем отмечать наиболее интересные или хотя бы курьезные сведения, которые будут попадаться по пути. 4 апреля этого года появилась очередная публикация с прогнозом и сценариями развития ИИ до конца 2027 года ( AI2027 ), подготовленная группой известных авторов, включая Даниэля Кокотайло, Скотта Александра и других. Здесь на Хабре уже опубликован перевод этой публикации, оригинал выложен на отдельном сайте ai-2027.com .

https://habr.com/ru/companies/idx/articles/919466/

#AI_alignment #антифрод #ииагенты

ИИ агенты и хлопобуды

Хабр

Habr May 26, 2025

Достаточно ли ИИ быть агентом, чтобы иметь сознание?

Статья является дополнением к предыдущей статье " Нужна ли агентам ИИ «этика в весах»? ", прояснением некоторых вопросов. Я считаю эту тему действительно важной, которую нужно вносить в дискурс, так как по моему мнению, мы движемся в сторону гибели. Я не уверен на 100% в своем методе выравнивания, но тем не менее, предлагается хотя бы какой-то выход. Пусть это будет голос в пустыне. Что-то делать надо. Почему по моему мнению до сих пор такой метод не рассматривался, судя по открытым источникам? Я считаю, что есть некоторый антропоморфизм, когда LLM считают неким протосознанием. И это опасно, в статье попробую объяснить почему. Для этого я опишу, что такое сознание, как возникает иллюзия. Естественно, предложенные мысли скорее всего не новы, я не могу претендовать на некие открытия в этой области, потому что как увидите дальше, всё достаточно прямо выходит из простых рассуждений. То, что я не буду указывать какие-то проработанные источники, теоретиков в области сознания, то тут две причины. Я технарь и никогда не увлекался подробно философией. А вторая причина: думаю, такое требование уже должно уходить в прошлое. Уже никому не нужно верить на слово, требовать для этого наукообразный текст, чтобы не ввести себя в заблуждение. Любой может попросить ИИ проверить текст и дать оценку, есть ли какая новизна и с какими именитыми учеными точка зрения совпадает. Мне же главное, чтобы читатели поняли рассуждения и перенесли это на ИИ. Уточню, зачем нужно этическое выравнивание, так как в предыдущей статье в комментариях указывали, что агент должен быть точным, а не искажать факты в угоду какой-то этики. Этика важна, и я под ней подразумеваю именно мораль и отношение к людям. Может быть, вы считаете, что переживете, если ИИ сгенерирует нелицеприятный текст. Но вы можете не пережить, если автоматический автомобиль или робот начнет делать с вами что-то нелицеприятное, просто потому что он точно выполняет задачу, а про вас там ничего не сказано.

https://habr.com/ru/articles/912520/

#Ai #ai_alignment

Достаточно ли ИИ быть агентом, чтобы иметь сознание?

Хабр

Habr May 13, 2025

Нужна ли агентам ИИ «этика в весах»?

Я не специалист ни в этике, ни в выравнивании — это размышления «из зала» о том, где в архитектуре ИИ должна жить этика. Возможно, кому‑то будет полезно обсудить альтернативный взгляд. 1. Аналогия: пуля и промпт Большие языковые модели (LLM) часто сравнивают с «умной пулей». Промпт задаёт траекторию, а модель, преодолевая шумы, летит к цели. Задача разработчика — свести рассеивание к минимуму. Стандартный подход к этическому выравниванию (AI alignment) пытается «править» полет пули внешней средой: поверх цели накладываются дополнительные фильтры, правила, штрафы за неэтичный текст и т.д. 2. Где прячется архитектурная ошибка

https://habr.com/ru/articles/909030/

#Искусственный_интеллект #ai_alignment

Нужна ли агентам ИИ «этика в весах»?

Я не специалист ни в этике, ни в выравнивании — это размышления «из зала» о том, где в архитектуре ИИ должна жить этика. Возможно, кому‑то будет интересен альтернативный взгляд. 1....

Хабр