Добро пожаловать в эру опыта: почему обучение с подкреплением изменит мир

ИИ подходит к новой стадии развития, которая обещает радикальные изменения во многих аспектах жизни и науки. В статье ниже мы рассмотрим ключевые изменения и технологии, которые сделают возможным наступление новой эры - эры опыта. Вы узнаете, почему нынешние подходы, основанные на человеческих данных, уже исчерпали себя, и как обучение на собственном опыте агентов откроет совершенно новые горизонты в развитии ИИ.

https://habr.com/ru/articles/907628/

#RL #ИИ #обучение_с_подкреплением #данные

Добро пожаловать в эру опыта: почему обучение с подкреплением изменит мир

Исследователи из Google DeepMind опубликовали интересную статью "Welcome to the Era of Experience" . В ней авторы утверждают, что мы стоим на пороге новой эры искусственного интеллекта, обещающей...

Хабр

Глубокое Q-обучение (DQN)

Подходит к завершению серия моих публикаций про использование идей искусственного интеллекта для решения задачи коммивояжера (TSP). В этой заметке помогаю разобраться в авторской реализации Deep Q-learning для TSP.

https://habr.com/ru/articles/906594/

#задача_коммивояжера #tsp #искусственный_интеллект #dqn #обучение_с_подкреплением

Глубокое Q-обучение (DQN)

вкалывают роботы... Немного контекста Подходит к завершению серия моих заметок про использование идей искусственного интеллекта для решения задачи коммивояжера (TSP). Я последовательно разобрал...

Хабр

А не пора ли нам подкрепиться?

Обучение с подкреплением – это одна из ключевых концепций ИИ. Пришло время подкрепить коммивояжера и его задачу поиска кратчайшего пути Q-обучением. Табличный вариант Q-обучения является сравнительно простой и эффективной реализацией обучения с подкреплением.

https://habr.com/ru/articles/892078/

#искусственный_интеллект #qобучение #задача_коммивояжера #tsp #обучение_с_подкреплением

А не пора ли нам подкрепиться?

Краткое содержание предыдущих серий В заметке про  Pointer Network  было много всего: нетривиальная архитектура кодировщика (энкодера) и декодера, механизм внимания, а также совсем немного...

Хабр

Разработка библиотеки для навигации групп мобильных роботов на транспортной платформе в заранее неизвестной среде

Разработка библиотеки для навигации групп мобильных роботов на транспортной платформе в заранее неизвестной среде

https://habr.com/ru/articles/883636/

#нейронные_сети #сверточные_нейронные_сети #обучение_с_подкреплением

Разработка библиотеки для навигации групп мобильных роботов на транспортной платформе в заранее неизвестной среде

Обучение робота Существующие решения для перемещения роботов в помещениях часто сталкиваются с рядом проблем, включающие ограничения в навигации, сложности в управлении, неэффективное использование...

Хабр

LLM-агента для разработки ПО это уже очень близко

Продолжая серию статей по вычислительной лингвистике , я подготовил русскую версию своей статьи. Большие языковых модели (Large Language Models, LLMs) значительно увеличили свою точность в последние годы. Исследователи уже не ограничиваются получением простых ответов — теперь они стремятся к созданию автономных агентов, способных к многошаговому рассуждению и принятию сложных решений. Более того, при достижении определённого порога масштабирования у языковых моеделей появляются эмержентные способности — неожиданные навыки и поведение, которые проявляются, когда емкость модели превышает критический уровень (Wei et al., 2022). К таким способностям относятся рассуждение, креативность и даже умение «саморефлексировать» перед тем, как выдать финальный ответ. Исследования в области Evolving Deeper LLM Thinking (KH et al., 2025) показывают, что эти возможности становятся более ярко выраженными по мере увеличения размеров языковых моделей и повышения разнообразия данных. Всё это прокладывает путь к созданию агентов, которые могут планировать, действовать и непрерывно адаптироваться к обратной связи из реального мира.

https://habr.com/ru/articles/880776/

#языковые_модели #обучение_с_подкреплением

LLM-агента для разработки ПО это уже очень близко

Продолжая серию статей по вычислительной лингвистике , я подготовил русскую версию своей статьи. Большие языковых модели (Large Language Models, LLMs) значительно увеличили свою точность в последние...

Хабр

Как мы обучили беспилотники в симуляции для гонок в смешанной реальности

Привет, Хабр! Меня зовут Андрей, я технологический предприниматель и более 9 лет занимаюсь разработкой и внедрением ИИ-решений в различных компаниях, включая стартапы в области беспилотников. Сегодня хочу поделиться с вами своим опытом создания фреймворка для обучения беспилотных машин в симуляции с использованием обучения с подкреплением (RL). Если вам интересна тема ИИ, подписывайтесь на мой телеграм-канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес и запуску ИИ-стартапов, объясняю как работают все эти ИИ-чудеса и рассуждаю о будущем индустрии.

https://habr.com/ru/articles/876200/

#искусственный_интеллект #машинное+обучение #беспилотники #беспилотный_автомобиль #обучение_с_подкреплением #reinforcementlearning

Как мы обучили беспилотники в симуляции для гонок в смешанной реальности

Привет, Хабр! Меня зовут Андрей, я технологический предприниматель и более 9 лет занимаюсь разработкой и внедрением ИИ-решений в различных компаниях, включая стартапы в области беспилотников. Сегодня...

Хабр

ИИ на путях: как решить задачу перепланирования расписания движения поездов

Привет, Хабр. Я Артур Саакян, главный специалист по анализу данных и машинному обучению в ПГК Диджитал. Мы разрабатываем уникальные цифровые продукты для железнодорожных перевозок, такие как оптимизация ЖД перевозок, навигатор, ЖД карты, цифровой вагон и так далее. В этой статье опишу подход к оптимизации расписания поездов в реальном времени при помощи обучения с подкреплением (RL), который применим и к российским грузовым ж/д перевозкам, но пока не используется. Тезисы статьи: 1. Перепланирование расписания движения поездов (Train Timetable Rescheduling) 2. Коротко об RL и Q-learning 3. Моделирование железнодорожной среды 4. Заключение

https://habr.com/ru/companies/pgk/articles/875386/

#жд #artificial_intelligence #machine_learning #reinforcement_learning #искусственный_интеллект #машинное_обучение #обучение_с_подкреплением #ии

ИИ на путях: как решить задачу перепланирования расписания движения поездов

Привет, Хабр. Я Артур Саакян, главный специалист по анализу данных и машинному обучению в ПГК Диджитал. Мы разрабатываем уникальные цифровые продукты для железнодорожных перевозок, такие как...

Хабр

Внимание — это все, что нужно коммивояжеру

Заголовок отсылает к знаменитой работе Attention Is All You Need , которая фактически перевернула мир ИИ, сделав его другим, не таким, как прежде. В этой научной публикации описаны принципы реализации архитектуры трансформеров, но в ее названии упоминается именно механизм внимания . Долгое время я пытался ответить себе на один простой вопрос: где все-таки заканчивается ML и начинается AI для задачи коммивояжера и вообще? Мне кажется, ответ пролегает где-то рядом с проростанием механизма внимания , который в 2014 году был предложен Dzmitry Bahdanau (извиняюсь, не знаю, как правильно писать по-русски его фамилию). Безусловно, были работы Хопфилда, получившего в 2024 Нобелевскую премию по физике, в том числе, за свою архитектуру нейронной сети, которая способна решать задачу коммивояжера. Были и другие работы, но, в случае разбора еще одного алгоритма из прошлого века, боюсь, нарваться на обратную связь в стиле: “дядь, не мороси, давай уже там про свой ИИ пиши, а не вот эти свои нафталиновые алгоритмы описывай”, поэтому про нейронную сеть Хопфилда готов написать, но только если будет ощутимая обратная связь. Механизм внимания был предложен как способ улучшить seq-to-seq модели, применяемых для перевода текста с одного языка на другой. Кто бы мог подумать, но токены слов можно заменить координатами городов и попробовать решить задачу TSP той же моделью. В конце концов человек тоже использует одно и тоже серое вещество для решения разных задач. Первые попытки реализации этой идеи подразумевали наличие оптимального эталонного маршрута в виде, например, посчитанного решения Concorde . Но позже появилась идея использования техники обучения с подкреплением или Reinforcement learning . Таким образом, появилась нейронная сеть Pointer Networks , о которой собственно я и хотел сегодня поговорить.

https://habr.com/ru/articles/874346/

#задача_коммивояжера #TSP #Pointer_Network #механизм_внимания #обучение_с_подкреплением #искусственный_интеллект

Внимание — это все, что нужно коммивояжеру

Говорят, человеческое внимание ходит по треугольнику на картине великого голландца Где начинается ИИ в задаче коммивояжера? Заголовок отсылает к знаменитой работе  Attention Is All You Need ,...

Хабр

Практическое обучение с подкреплением: от забав с MuJoCo'м до битв на арене

Добрый день, уважаемые хабровчане! Я хочу поделиться с вами очень интересным проектом, над которым работал в последнее время. В первой статье я не буду сильно углубляться в технические подробности, а вместо этого постараюсь провести вас по пути, который я прошел при реализации своего пайплайна для обучения нейросеток, сражающихся друг с другом на арене. Весь код доступен на моем GitHub и готов к использованию, поэтому вы сразу сможете обучить чемпиона и поучаствовать в сражении! Готовы? Тогда - вперед! На арену!

https://habr.com/ru/articles/872514/

#The_MuJoCo_Men #reinforcement_learning #machine_learning #машинное_обучение #JAX #MuJoCo #SAC #обучение_с_подкреплением

Практическое обучение с подкреплением: от забав с MuJoCo'м до битв на арене

Добрый день, уважаемые хабровчане! Я хочу поделиться с вами очень интересным проектом, над которым работал в последнее время. В первой статье я не буду сильно углубляться в технические подробности, а...

Хабр

Как сделать обучение эффективней

В этой короткой статье собраны техники, которые позволяют сделать обучение эффективней. Это не система, а именно набор рекомендаций: чем больше вы или ваши сотрудники и коллеги наберёте, тем больше вероятность, что обучение будет полезным. В конце статьи привожу чек-лист, который вам поможет проверить, какому количество пунктов вы или ваши сотрудники соответствуете. Прочесть и обучаться лучше

https://habr.com/ru/articles/852436/

#обучение #обучение_программированию #обучающий_материал #обучение_с_подкреплением #обучение_онлайн #обучающее_видео #обучение_без_учителя

Как сделать обучение эффективней

В этой короткой статье собраны самые разные способы, как сделать обучение эффективным. Это не система, а именно набор рекомендаций: чем больше вы наберёте, тем больше вероятность, что обучение будет...

Хабр