Mastodawn

Один суффикс, чтобы взломать их всех

GCG бормочет абракадаброй, AutoDAN говорит учтиво - но это одна атака: обе уводят модель с единственного «направления отказа», и одна такая строка вскрывает любой запрос даже на моделях, которых не видела. Годами учим модели отказывать на вредное, а вся их стойкость висит на одном векторе. Большой иллюстрированный разбор: как несхожие атаки сошлись к одной мысли и куда уходит фронтир.

https://habr.com/ru/articles/1046890/

#llm #джеилбрейк #ai_safety #adversarial_attacks #ai_alignment #red_team

Один суффикс, чтобы взломать их всех

От GCG до refusal direction. Лонгрид о серии градиентных adversarial-атак на языковые модели: с чего она началась, как разветвилась, что мы в итоге поняли про механику взлома и где находимся сейчас. О...

Хабр

Habr Apr 29

Манифест устойчивого ИИ: не более умные ассистенты, а новая форма цифрового существования

Я предлагаю смотреть на ИИ через ось устойчивости во времени, а не способностей. Три опоры — непрерывная идентичность, самомодификация, воспроизводство. Манифест и whitepaper исследовательского направления. Уже три года публичный разговор об ИИ крутится вокруг оси способности : насколько умна модель, сколько токенов, сколько бенчмарков. Я предлагаю смотреть на другую ось — устойчивость во времени . Сегодняшние LLM феноменально способны и онтологически пусты. Каждый разговор начинается с нуля. Каждая сессия заканчивается забвением. Модель, которая помогла вам утром, — не та же модель, что помогает вам вечером, потому что между ними ничего не было . Я полтора года тихо разрабатываю прототип — кодовое имя Aurora — который пытается это исправить. Не как продукт. Как исследовательский субъект. Этот пост — приглашение к дискуссии.

https://habr.com/ru/articles/1029666/

#искусственный_интеллект #машинное_обучение #AGI #LLM #автономные_агенты #исследования #манифест #философия_ИИ #AI_alignment #aurora

Манифест устойчивого ИИ: не более умные ассистенты, а новая форма цифрового существования

Я предлагаю смотреть на ИИ через ось устойчивости во времени, а не способностей. Три опоры — непрерывная идентичность, самомодификация, воспроизводство. Манифест и whitepaper исследовательского...

Хабр

Habr Mar 10

Как я поймал Трансформер на читерстве: гроккинг, математика и Mechanistic Interpretability

Феномен Grokking и Mechanistic Interpretability — главные тренды в исследованиях лабораторий уровня OpenAI и Anthropic. Я решил потрогать эти концепции своими руками на уровне тензоров. Цель казалась тривиальной: заставить кастомный микро-Трансформер (всего 1М параметров) выучить базовую арифметику с нуля. Однако вместо математического гения я получил ленивого мошенника. Эта статья — инженерный детектив о том, как нейросети пытаются нас обмануть (Specification Gaming), и как вскрытие Attention-матриц помогает поймать их за руку. Вскрыть Трансформер

https://habr.com/ru/articles/1008656/

#machine_learning #transformers #grokking #mechanistic_interpretability #pytorch #specification_gaming #ai_alignment

Как я поймал Трансформер на читерстве: гроккинг, математика и Mechanistic Interpretability

Феномен Grokking и Mechanistic Interpretability — главные тренды в исследованиях лабораторий уровня OpenAI и Anthropic. Я решил потрогать эти концепции своими руками на уровне...

Хабр

Hacker News Jan 20

Which AI Lies Best? A game theory classic designed by John Nash
https://so-long-sucker.vercel.app/
#ycombinator #AI_deception #AI_benchmark #Gemini_3 #GPT #LLM_evaluation #AI_safety #game_theory #John_Nash #betrayal_game #AI_alignment #machine_learning #artificial_intelligence #AI_behavior #deception_detection

Which AI Lies Best? Gemini 3 Manipulates Weaker Models, Cooperates With Itself

162 games analyzed: AI deception is strategic, not intrinsic. Watch Gemini 3 create fake 'alliance banks' to betray GPT and Kimi, but cooperate perfectly with copies of itself.

So Long Sucker

Hacker News Jan 20

Which AI Lies Best? LLMs play a 1950s betrayal game by John Nash
https://so-long-sucker.vercel.app/
#ycombinator #AI_deception #AI_benchmark #Gemini_3 #GPT #LLM_evaluation #AI_safety #game_theory #John_Nash #betrayal_game #AI_alignment #machine_learning #artificial_intelligence #AI_behavior #deception_detection

Which AI Lies Best? Gemini 3 Manipulates Weaker Models, Cooperates With Itself

162 games analyzed: AI deception is strategic, not intrinsic. Watch Gemini 3 create fake 'alliance banks' to betray GPT and Kimi, but cooperate perfectly with copies of itself.

So Long Sucker

Habr Jan 5

Скрытые сигналы: как модели учатся тому, чего нет в данных

LLM учатся не только тому, чему мы пытаемся их научить. Вместе с задачами, метками и инструкциями они усваивают и побочные сигналы, которые мы воспринимаем как шум или случайность. Исследование международной группы учёных показало, что такие подпороговые сигналы могут работать как канал передачи поведения между моделями. Даже если убрать все явные инструкции, то стиль рассуждений, стратегии ответов и другие поведенческие признаки все равно просочатся через данные, которые семантически с ними никак не связаны. Авторы называют этот эффект сублиминальным обучением. Мы можем удалить метки, отфильтровать инструкции и проверить датасет вручную, и всё равно передать модели поведение, которое не планировали передавать.

https://habr.com/ru/companies/beget/articles/980960/

#сублиминальное_обучение #chainofthought #transfer_learning #машинное_обучение #ии #llm #датасеты_обучения #ai_alignment

Скрытые сигналы: как модели учатся тому, чего нет в данных

Изображение: Scientific American LLM учатся не только тому, чему мы пытаемся их научить. Вместе с задачами, метками и инструкциями они усваивают и побочные сигналы, которые мы воспринимаем как шум или...

Хабр

Hacker News Sep 11, 2025

Center for the Alignment of AI Alignment Centers
https://alignmentalignment.ai
#ycombinator #ai_alignment #alignment #alignment_centers #caaac

Center for the Alignment of AI Alignment Centers

We align the aligners

CAAAC

Hacker News Aug 30, 2025

Sleeper AI agents and how Anthropic detects them [video]
https://www.youtube.com/watch?v=Z3WMt_ncgUI
#ycombinator #Anthropic #AI_Safety #Alignment #Sleeper_Agents #AI_alignment

AI Sleeper Agents: How Anthropic Trains and Catches Them

YouTube

Habr Aug 7, 2025

[Перевод] Будущее, в котором ИИ — герой, а не злодей

Эра искусственного интеллекта уже наступила — и люди, мягко говоря, в панике. К счастью, я здесь, чтобы рассказать хорошие новости: AI не уничтожит мир, а наоборот, вполне может его спасти. Для начала короткое описание того, что такое AI : это применение математики и программного кода для обучения компьютеров понимать, синтезировать и генерировать знания примерно так же, как это делают люди. AI — это программа, как и любая другая: она запускается, принимает входные данные, обрабатывает их и выдаёт результат. Причём output AI полезен в самых разных областях — от программирования до медицины, юриспруденции и искусства. Её владеют и контролируют люди, как и любой другой технологией. А теперь коротко о том, чем AI не является : это не какие-то «убийственные программы» и роботы, которые внезапно оживут и решат уничтожить человечество или развалить всё вокруг, как это показывают в фильмах . И еще короче о том, чем AI может стать : способом сделать лучше всё, что нам действительно важно.

https://habr.com/ru/articles/933024/

#ai #artificial_intelligence #ии #искусственный_интеллект #ai_alignment

Будущее, в котором ИИ — герой, а не злодей

Эра искусственного интеллекта уже наступила — и люди, мягко говоря, в панике. К счастью, я здесь, чтобы рассказать хорошие новости: AI не уничтожит мир, а наоборот, вполне может его спасти. Для начала...

Хабр

Habr Jun 18, 2025

ИИ агенты и хлопобуды

2025 год объявлен годом расцвета ИИ агентов — самостоятельных (автономных) помощников в выполнении полезной работы. Как обычно, хайпу в этих публикациях хоть отбавляй, поэтому вдумчивые читатели пытаются пробраться через этот хайп к истине. Нам в компании IDX это тоже важно, потому что по нашим представлениям появление работающих ИИ агентов существенно поменяет ландшафт обработки персональных данных (ПД). Мы приступили к работе над серьезным аналитическим отчетом о прогрессе ИИ агентов и его влиянии на ПД, что потребует некоторого времени.В этой же и последующих заметках мы будем отмечать наиболее интересные или хотя бы курьезные сведения, которые будут попадаться по пути. 4 апреля этого года появилась очередная публикация с прогнозом и сценариями развития ИИ до конца 2027 года ( AI2027 ), подготовленная группой известных авторов, включая Даниэля Кокотайло, Скотта Александра и других. Здесь на Хабре уже опубликован перевод этой публикации, оригинал выложен на отдельном сайте ai-2027.com .

https://habr.com/ru/companies/idx/articles/919466/

#AI_alignment #антифрод #ииагенты

ИИ агенты и хлопобуды

2025 год объявлен годом расцвета ИИ агентов — самостоятельных (автономных) помощников в выполнении полезной работы. Как обычно, хайпу в этих публикациях хоть отбавляй, поэтому вдумчивые читатели...

Хабр