Топ вопросов с NLP собеседований: трансформеры и внимание до малейших деталей

Архитектура трансформера и его сердце механизм внимания уже давно стали базой собесов на NLP, LLM и даже CV. В работе трансформеры тоже доминируют. Именно поэтому очень важно до деталей разбираться в том, как они устрены, из каких частей состоят, как работают и где применяются на практике. Разберем архитектуру по слоям с примерами кода и большим количеством картинок и схем.

https://habr.com/ru/articles/972178/

#transformers #attention #llms #natural_language_processing #nlp #нлп #механизм_внимания #трансформеры #глубокое_обучение #машинное_обучение

Топ вопросов с NLP собеседований: трансформеры и внимание до малейших деталей

Знание механизма внимания и трансформеров - база любых собеседований на все грейды в NLP! Статья не рассчитана на изучение тем с нуля, если вы еще не слышали ничего про attention, то лучше обратиться...

Хабр

Логический компас для искусственного интеллекта

Международный коллектив ученых из Сколковского института науки и технологий, МФТИ, Института исследований искусственного интеллекта (AIRI) и Университета Париж-Сите разработал новый, элегантный метод для проверки логических способностей больших языковых моделей (LLM). Вместо того чтобы судить о правильности рассуждений нейросети лишь по ее финальному ответу, исследователи научились заглядывать внутрь ее механизма «внимания» и находить там скрытые паттерны, отвечающие за проверку логики. Этот подход, названный QK-score, позволяет с высокой точностью определять, следует ли модель законам логики на каждом шаге своих рассуждений, делая ее работу более прозрачной и надежной. Результаты исследования, открывающие путь к созданию более предсказуемого и безопасного ИИ, были приняты на main track of EMNLP 2025, и опубликованы в виде препринта на портале arXiv.

https://habr.com/ru/articles/969326/

#механизм_внимания #большие_языковые_модели #Aiтексты #сгенерированные_тексты #трансформеры #рассуждения_нейросети

Логический компас для искусственного интеллекта

Международный коллектив ученых из Сколковского института науки и технологий, МФТИ, Института исследований искусственного интеллекта (AIRI) и Университета Париж-Сите разработал новый, элегантный метод...

Хабр

Апокалипсис контента? Взгляд юриста и разбор LLM

На днях наткнулся на статью, опубликованную в телеграм-канале Habr, под названием «Тихий апокалипсис контента: почему все устали от сгенерированных статей». В ней автор выражает озабоченность количеством сгенерированного контента, который набирает просмотры и вытесняет из выдачи авторские статьи. Статья автора натолкнула меня на идею порассуждать на эту тему, провести небольшие исследования, сравнить процесс генерации текста ИИ и человеком и просто поделиться своим «экспертным» мнением.

https://habr.com/ru/articles/966882/

#llmмодели #нейросети #генерация_текста #механизм_внимания #transformer #токенизация #апокалипсис_контента #вероятностная_генерация #авторегрессия

Апокалипсис контента? Взгляд юриста и разбор LLM

На днях наткнулся на статью, опубликованную в телеграм-канале Habr, под названием «Тихий апокалипсис контента: почему все устали от сгенерированных статей». В ней автор выражает озабоченность...

Хабр

Анатомия памяти LLM: Почему будущее не за промптами, а за Инженерией Контекста

Мой счет за Google API взлетел до €51 из-за контекста LLM. Эта статья раскрывает, почему "память" моделей так дорога, как работает механизм Внимания, и предлагает 5 хаков для управления контекстом. Узнайте, почему будущее за Инженерией Контекста, а не за промптами.

https://habr.com/ru/articles/934244/

#инженерия_контекста #llm #llm_память #оптимизация_llm #prompt_engineering #механизм_внимания #rag #контекстное_окно #контекст_llm

Анатомия памяти LLM: Почему будущее не за промптами, а за Инженерией Контекста

При работе с API больших языковых моделей я привык к определенной предсказуемости. Для моих исследовательских задач, экспериментов с кодом и повседневной рутины дневные расходы на API обычно...

Хабр

Путешествие одного промпта: Что на самом деле происходит под капотом у LLM?

Загадка работы LLM: что происходит, когда вы нажимаете Enter? Разбираем пошагово путь вашего промпта от токенизации до генерации ответа. Узнайте, как устроены большие языковые модели, как ими управлять и какие мифы они развеивают.

https://habr.com/ru/articles/931844/

#llm #промпт #трансформеры #токенизация #эмбеддинги #механизм_внимания #генеративный_ии #Как_работает_ИИ

Путешествие одного промпта: Что на самом деле происходит под капотом у LLM?

Мы все там были. Пустой курсор мигает на экране, в голове крутится сложный вопрос, и вы обращаетесь к своему цифровому оракулу — большой языковой модели. Представьте, вы пишете в чат что-то вроде:...

Хабр

Внимание правильный ответ

Если читатель был достаточно внимателен, то, наверное, заметил, что в предыдущей заметке я обошел стороной непосредственно блок механизма внимания, точнее сказать, описание было дано методом черного ящика: вот тут такие-то входы, там такие-то выходы. Теперь, внимание, вопрос знатокам: Что лежит в черном ящике? В действительности, крайне важно понимать, что там внутри и логично посвятить данной теме отдельный текст. Понимание механизма внимания определяет ход дальнейших размышлений вплоть до самых передовых архитектур ИИ и поэтому сложно переоценить важность этой темы.

https://habr.com/ru/articles/877000/

#механизм_внимания #искусственный_интеллект #непараметрические_методы #регрессия_НадараяВатсона #ядерная_оценка_плотности #статистика

Внимание правильный ответ

Что в черном ящике??? Top-down подход Если читатель был достаточно внимателен, то, наверное, заметил, что в предыдущей  заметке  я обошел стороной непосредственно блок механизма внимания,...

Хабр

Внимание — это все, что нужно коммивояжеру

Заголовок отсылает к знаменитой работе Attention Is All You Need , которая фактически перевернула мир ИИ, сделав его другим, не таким, как прежде. В этой научной публикации описаны принципы реализации архитектуры трансформеров, но в ее названии упоминается именно механизм внимания . Долгое время я пытался ответить себе на один простой вопрос: где все-таки заканчивается ML и начинается AI для задачи коммивояжера и вообще? Мне кажется, ответ пролегает где-то рядом с проростанием механизма внимания , который в 2014 году был предложен Dzmitry Bahdanau (извиняюсь, не знаю, как правильно писать по-русски его фамилию). Безусловно, были работы Хопфилда, получившего в 2024 Нобелевскую премию по физике, в том числе, за свою архитектуру нейронной сети, которая способна решать задачу коммивояжера. Были и другие работы, но, в случае разбора еще одного алгоритма из прошлого века, боюсь, нарваться на обратную связь в стиле: “дядь, не мороси, давай уже там про свой ИИ пиши, а не вот эти свои нафталиновые алгоритмы описывай”, поэтому про нейронную сеть Хопфилда готов написать, но только если будет ощутимая обратная связь. Механизм внимания был предложен как способ улучшить seq-to-seq модели, применяемых для перевода текста с одного языка на другой. Кто бы мог подумать, но токены слов можно заменить координатами городов и попробовать решить задачу TSP той же моделью. В конце концов человек тоже использует одно и тоже серое вещество для решения разных задач. Первые попытки реализации этой идеи подразумевали наличие оптимального эталонного маршрута в виде, например, посчитанного решения Concorde . Но позже появилась идея использования техники обучения с подкреплением или Reinforcement learning . Таким образом, появилась нейронная сеть Pointer Networks , о которой собственно я и хотел сегодня поговорить.

https://habr.com/ru/articles/874346/

#задача_коммивояжера #TSP #Pointer_Network #механизм_внимания #обучение_с_подкреплением #искусственный_интеллект

Внимание — это все, что нужно коммивояжеру

Говорят, человеческое внимание ходит по треугольнику на картине великого голландца Где начинается ИИ в задаче коммивояжера? Заголовок отсылает к знаменитой работе  Attention Is All You Need ,...

Хабр