Legen… Wait, Wait… Dary! Разбираемся с рефлексией LLM

Хабр, привет! Меня зовут Андрей Галичин, я младший научный сотрудник группы «Доверенные и безопасные интеллектуальные системы» в Институте AIRI, инженер‑исследователь в лаборатории безопасного искусственного интеллекта SAIL AIRI‑МТУСИ, а также аспирант Сколтеха. Мы с коллегами занимаемся интерпретируемостью больших языковых моделей. В январе этого года, когда все обсуждали впечатляющие результаты новой рассуждающей языковой модели DeepSeek‑R1 (подробный разбор статьи от моего коллеги Антона Разжигаева можно найти здесь ), мы задались вопросом: а что на самом деле происходит внутри этих моделей, когда они «думают»? Главная особенность таких моделей — это способность к рефлексии, самопроверке и сомнениях в своих рассуждениях, которые магическим образом возникают в процессе обучения ("aha moment") и выражаются в использовании моделью человекоподобных фраз типа "Wait", "Alternatively" и других. Однако никто толком не разбирался, откуда они берутся и зачем нужны (работает — не трогай!). Именно на эти вопросы мы и попытались ответить в нашей новой статье "​I Have Covered All the Bases Here: Interpreting Reasoning Features in Large Language Models via Sparse Autoencoders" . Мы обнаружили, что эти фразы — не просто декорация, а действительно важные для модели вещи. Мы спустились на уровень скрытых представлений модели и нашли механизмы, отвечающие за рассуждающие способности. Более того, мы научились их контролировать — усиливая нужные компоненты, мы смогли заставить модель рассуждать глубже и точнее! В этой статье я коротко расскажу про наши главные выводы.

https://habr.com/ru/companies/airi/articles/937462/

#интерпретируемость_ии #deepseek #aha_moment #llm

Legen… Wait, Wait… Dary! Разбираемся с рефлексией LLM

Хабр, привет! Меня зовут Андрей Галичин, я младший научный сотрудник группы «Доверенные и безопасные интеллектуальные системы» в Институте AIRI, инженер‑исследователь в лаборатории...

Хабр

Почему ИИ не понимает смысла, но этого (пока) хватает

Вы просите ИИ объяснить квантовую механику — и он выдаёт такой чёткий ответ, будто сам Шрёдингер ему диктовал. Спрашиваете про тонкости налогового кодекса — получаете разбор, достойный юриста. А когда в шутку интересуетесь рецептом "пасты для взлома Пентагона", ИИ невозмутимо выдаёт инструкцию (с оговоркой про незаконность, конечно). Но вот парадокс: ChatGPT не понимает ни квантовой физики, ни юриспруденции, ни даже того, что "паста для взлома" — это шутка. Он просто играет в "угадай слово" на экспертном уровне. Это не просто философский спор — на кону доверие к ИИ в медицине, юриспруденции и разработке. Ошибка здесь может стоить денег, репутации или даже здоровья. Так где же граница между предсказанием текста и настоящим пониманием ? Давайте разбираться.

https://habr.com/ru/articles/921296/

#ии_и_машинное_обучение #нейросети #ии #когнитивные_науки #семантика #философия_ии #интерпретируемость_ии

Почему ИИ не понимает смысла, но этого (пока) хватает

О предсказании, понимании и семантическом разрыве Вы просите ИИ объяснить квантовую механику — и он выдаёт такой чёткий ответ, будто сам Шрёдингер ему диктовал. Спрашиваете про тонкости налогового...

Хабр