Топ вопросов с NLP собеседований: трансформеры и внимание до малейших деталей

Архитектура трансформера и его сердце механизм внимания уже давно стали базой собесов на NLP, LLM и даже CV. В работе трансформеры тоже доминируют. Именно поэтому очень важно до деталей разбираться в том, как они устрены, из каких частей состоят, как работают и где применяются на практике. Разберем архитектуру по слоям с примерами кода и большим количеством картинок и схем.

https://habr.com/ru/articles/972178/

#transformers #attention #llms #natural_language_processing #nlp #нлп #механизм_внимания #трансформеры #глубокое_обучение #машинное_обучение

Топ вопросов с NLP собеседований: трансформеры и внимание до малейших деталей

Знание механизма внимания и трансформеров - база любых собеседований на все грейды в NLP! Статья не рассчитана на изучение тем с нуля, если вы еще не слышали ничего про attention, то лучше обратиться...

Хабр

Ускоряем LLM по максимуму. Как я создал кросс-платформенный Flash Attention с поддержкой Turing+ архитектур и не только

На сегодняшний день трансформеры правят балом хайпа в мире машинного обучения, особенно после появления ChatGPT и ему подобных языковых моделей. Это стало возможным благодаря лежащему в основе их архитектуры механизму внимания (attention), однако он же и является слабым местом с точки зрения производительности и потребления памяти. Хотя в связи с этим и была разработана изящная концепция Flash Attention (Tri Dao), её существующие реализации имеют ряд ограничений. Поэтому представляю вашему вниманию первую и единственную open-source реализацию Flash Attention 2 на Triton с поддержкой Linux и Windows, Turing-Blackwell архитектур (теперь можно работать в Google Colab и Kaggle), гомо и гетерогенных кластеров, опциональным детерминизмом, а также возможностью ручной кастомизации ядер (kernels) для более гибкой настройки под каждую GPU архитектуру отдельно. Более подробно о том как это устроено и не только — далее в статье.

https://habr.com/ru/articles/976576/

#машинное_обучение #transformers #трансформеры #внимание #attention #flashattention #triton #большие_языковые_модели #llm #оптимизация_производительности

Ускоряем LLM по максимуму. Как я создал кросс-платформенный Flash Attention с поддержкой Turing+ архитектур и не только

На сегодняшний день трансформеры правят балом хайпа в мире машинного обучения, особенно после появления ChatGPT и ему подобных языковых моделей. Это стало возможным благодаря лежащему в основе их...

Хабр

Логический компас для искусственного интеллекта

Международный коллектив ученых из Сколковского института науки и технологий, МФТИ, Института исследований искусственного интеллекта (AIRI) и Университета Париж-Сите разработал новый, элегантный метод для проверки логических способностей больших языковых моделей (LLM). Вместо того чтобы судить о правильности рассуждений нейросети лишь по ее финальному ответу, исследователи научились заглядывать внутрь ее механизма «внимания» и находить там скрытые паттерны, отвечающие за проверку логики. Этот подход, названный QK-score, позволяет с высокой точностью определять, следует ли модель законам логики на каждом шаге своих рассуждений, делая ее работу более прозрачной и надежной. Результаты исследования, открывающие путь к созданию более предсказуемого и безопасного ИИ, были приняты на main track of EMNLP 2025, и опубликованы в виде препринта на портале arXiv.

https://habr.com/ru/articles/969326/

#механизм_внимания #большие_языковые_модели #Aiтексты #сгенерированные_тексты #трансформеры #рассуждения_нейросети

Логический компас для искусственного интеллекта

Международный коллектив ученых из Сколковского института науки и технологий, МФТИ, Института исследований искусственного интеллекта (AIRI) и Университета Париж-Сите разработал новый, элегантный метод...

Хабр

Оптимальный путь в NLP: как стать Middle за полгода

Разбираю оптимальный путь в NLP: какие темы не нужны, что важно выучить, и как за 6 месяцев выйти на уровень Middle. Внутри — ошибки обучения, приоритеты и подробный роадмап с вопросами для самопроверки.

https://habr.com/ru/articles/969438/

#NLP #машинное_обучение #data_science #карьера_в_it #обучение_программированию #ml_system_design #трансформеры #rag #нейронные_сети #python

Оптимальный путь в NLP: как стать Middle за полгода

Стать Middle NLP Engineer за 6 месяцев — реально. Не за два года, не через бесконечные курсы — а за полгода нормальной учебы. Эта статья - про оптимальный путь....

Хабр

[Перевод] Не только трансформеры: за пределами стандартных архитектур LLM

Привет! Это перевод очень крутой и захватывающей статьи, в которой автор рассматривает альтернативные архитектуры LLM: гибриды с линейным вниманием, диффузионные LLM, модели мира и малые рекурсивные трансформеры. Каждая архитектура достаточно детально и глубоко разобрана, поэтому если вы интересуетесь LLMками, то будет очень интересно.

https://habr.com/ru/articles/964658/

#ai #llm #диффузия #большие_языковые_модели #трансформеры #архитектура

Не только трансформеры: за пределами стандартных архитектур LLM

Привет! Это перевод очень крутой и захватывающей статьи, в которой автор рассматривает альтернативные архитектуры LLM: гибриды с линейным вниманием, диффузионные LLM, модели мира и малые рекурсивные...

Хабр

Мир после трансформеров: закат и новый рассвет больших языковых моделей

Даже если вы избегали ChatGPT и его многочисленных аналогов, то наверняка сталкивались с обработкой текстов ИИ хотя бы в поисковой выдаче. Большие языковые модели (LLM) сейчас применяют повсюду. Проблема в том, что все они построены на одной и той же архитектуре трансформеров, поэтому страдают от общих недостатков. В этой статье эксперты из лаборатории искусственного интеллекта компании «Криптонит» расскажут о существующих ограничениях LLM, наметившихся путях их преодоления и о том, какими будут следующие большие языковые модели. Эпоха трансформеров началась стремительно, и Marvel здесь ни при чём. Исследование OpenAI « Scaling Laws for Neural Language Models » показало, что эта архитектура с механизмом самовнимания легко масштабируется. Производительность LLM предсказуемо растёт с увеличением размера модели, объёма датасетов и доступных вычислительных ресурсов, а это — залог коммерческого успеха. Поэтому в 2020-2021 начался бум развития LLM. Каждая крупная ИТ-компания хотела представить свою модель с миллиардами параметров (и получить миллиарды долларов от инвесторов). Однако в последующей работе « Training Compute-Optimal Large Language Models » от DeepMind появилось важное уточнение: существующие модели слабо оптимизированы по отношению данных к параметрам. Поэтому при дальнейшей разработке моделей стали фокусироваться в том числе и на качестве данных, а не только на размере. Поначалу простое масштабирование и увеличение доли качественных датасетов в обучающих наборах действительно приводили к экспоненциальному росту возможностей LLM. Наверняка вы помните, как с каждым релизом ChatGPT умнел (а мы глупели) .

https://habr.com/ru/companies/kryptonite/articles/961128/

#LLM #большие_языковые_модели #трансформеры #обработка_естественного_языка #NLP #искусственный_интеллект #машинное_обучение #ChatGPT #DeepSeek #Grok

Мир после трансформеров: закат и новый рассвет больших языковых моделей

Даже если вы избегали ChatGPT и его многочисленных аналогов, то наверняка сталкивались с обработкой текстов ИИ хотя бы в поисковой выдаче. Большие языковые модели (LLM) сейчас применяют повсюду....

Хабр

Галлюцинации LLM: запретить нельзя использовать

Давайте поговорим о "галлюцинациях" LLM (больших языковых моделей) — генерации несуществующих фактов в уверенной подаче. Обычно их считают багом и стараются подавить через дообучение и фильтры. Однако недавнее исследование Why Language Models Hallucinate , 2025, показывает, что сама система оценивания поощряет модели угадывать, а не честно признавать неопределённость. Я попробовала разобрать, могут ли такие "галлюцинации" быть функциональной интуицией и как превратить их в инструмент идей.

https://habr.com/ru/articles/947964/

#ии #галлюцинирование_нейросетей #промт #llm #языковые_модели #трансформеры #нейросети #достоверность #reasoning

Галлюцинации LLM: запретить нельзя использовать

Давайте поговорим о галлюцинациях LLM - больших языковых моделей. На первый взгляд это выглядит как ошибка, ложь или выдумка. В недавнем отчёте OpenAI Why Language Models Hallucinate прямо сказано:...

Хабр

Law & Practice Ensemble RAG. Как создать ассистента, помогающего решать многоаспектные юридические задачи

Большие языковые модели ( LLM ) в последние несколько лет являются ключевым направлением искусственного интеллекта. Дальнейшее развитие LLM, очевидно, меняет сам способ взаимодействия с технологиями , снижая порог входа для представителей всех профессий, в том числе исконно гуманитарных.

https://habr.com/ru/companies/otus/articles/946012/

#RAG #RetrievalAugmented_Generation #llm #Large_Language_Models #языковые_модели #трансформеры #finetuning #эмбеддинги #dense_retrieval

Law & Practice Ensemble RAG. Как создать ассистента, помогающего решать многоаспектные юридические задачи

Автор статьи: Сергей Слепухин Большие языковые модели ( LLM ) в последние несколько лет являются ключевым направлением искусственного интеллекта (ИИ). Дальнейшее развитие LLM, очевидно, меняет...

Хабр

Как служба поддержки ЮMoney научилась общаться с пользователями из разных стран, не зная их языка

Привет, Хабр. Мы – Даша (инженер машинного обучения) и Наташа (ведущий аналитик в ЮMoney). В этой статье расскажем о системе машинного перевода , разработанной как end-to-end-решение для многоязычной поддержки в финтех-компании. Рассмотрим архитектуру, технические детали реализации и практические результаты внедрения системы. А ещё покажем, как общались с пользователем из Казахстана. План статьи: >> Проанализируем потребность в системе перевода — рассмотрим, почему языковые барьеры критичны для техподдержки и масштабирования бизнеса. >> Обсудим выбор архитектурного подхода — почему остановились на специализированном агенте вместо универсальных LLM-решений. >> Детально разберём техническую реализацию — как работают FastText для определения языка и NLLB для перевода и почему потребовалось 12 отдельных LoRA адаптеров. >> Покажем систему в действии — полный цикл обработки обращения от клиента из Казахстана. >> Завершим анализом результатов и метрик качества работы системы.

https://habr.com/ru/companies/yoomoney/articles/941694/

#llmагент #aiассистент #lora #детекция_текста #трансформеры #машинный_перевод

Как служба поддержки ЮMoney научилась общаться с пользователями из разных стран, не зная их языка

Привет, Хабр. Мы – Даша (инженер машинного обучения) и Наташа (ведущий аналитик в ЮMoney). В этой статье расскажем о системе машинного перевода , разработанной как end-to-end-решение для многоязычной...

Хабр

Кофе — мой type, музыка — мой out: строим NERвный-пайплайн на продуктовых запросах

Привет, Хабр! На связи команда Ad-Hoc аналитики X5 Tech. В этой статье расскажем, как мы научили поиск извлекать важные сущности из запросов пользователей. Полный разбор реализации NER (Named Entity Recognition) для продуктового ритейла, шаг за шагом: как мы размечали данные, считали метрики на уровне токенов и сущностей — и почему для коротких и длинных запросов потребовались разные архитектурные решения.

https://habr.com/ru/companies/X5Tech/articles/941634/

#ner #ии #искусственный_интеллект #машинное_обучение #nlp #трансформеры

Кофе — мой type, музыка — мой out: строим NERвный-пайплайн на продуктовых запросах

Привет, Хабр! На связи команда Ad-Hoc аналитики X5 Tech. В этой статье расскажем, как мы научили поиск извлекать важные сущности из запросов пользователей. Полный разбор реализации NER (Named Entity...

Хабр