Mastodawn

От «Долгого Джонта» Кинга до pip install: пишем HAL для атомного манипулятора

Начал с фантазий про телепортацию из рассказа Кинга, закончил Python-пакетом для управления атомным микроскопом. Симулятор вместо оборудования за $500K, замена LabVIEW на asyncio, drop-in для RL-агента.

https://habr.com/ru/articles/1014592/

#STM #машинное_обучение #reinforcement_learning #python #open_source #нанотехнологии

От «Долгого Джонта» Кинга до pip install: пишем HAL для атомного манипулятора

TL;DR: Начал с фантазий про телепортацию из рассказа Стивена Кинга, закончил Python-пакетом для управления сканирующим туннельным микроскопом. 41 тест, симулятор вместо оборудования за $500K, замена...

Хабр

Habr Feb 20

Лимит доверия: как ИИ решает, сколько денег вам можно дать (и почему это часто несправедливо)

Что влияет на размер вашего кредитного лимита? И почему банк может вдруг его уменьшить, даже если вы всегда вовремя вносите платежи? В предыдущей статье мы выяснили, как банки применяют модели машинного обучения для определения вашей кредитоспособности; в этой статье мы рассмотрим примеры Synchrony Bank и Apple Card, объясним тактику “low-and-grow” и продемонстрируем, как банки задействуют поведенческую экономику и обучение с подкреплением для контроля над вашими задолженностями. Очень интересно, хочу прочитать!

https://habr.com/ru/articles/1001676/

#кредитный_лимит #Apple_Card #Reinforcement_Learning #поведенческая_экономика

Лимит доверия: как ИИ решает, сколько денег вам можно дать (и почему это часто несправедливо)

Изображение создано с помощью ChatGPT Что влияет на размер вашего кредитного лимита? И почему банк может вдруг его уменьшить, даже если вы всегда вовремя вносите платежи? В предыдущей статье мы...

Хабр

Habr Jan 27

Kimi K2.5: Как научить нейросеть не бояться параллельности

Moonshot AI выкатили K2.5. Пресс-релиз трубит про «самую мощную open-source модель», но я бы хотел поговорить о другом — о том, что они сделали с агентами. Начну с конца. Там есть график, который стоит тысячи слов. Ось X — сложность задачи. Ось Y — время выполнения. Две линии: одиночный агент и рой агентов. Одиночный агент карабкается вверх линейно. Рой держится почти горизонтально. На сложных задачах разрыв — в четыре с половиной раза. Параллельные агенты обсуждают давно, но тут впервые показали, как этому научить модель, а не прописывать логику декомпозиции вручную. Также, выдали доступ к этим агентам по ценам, похожим на ChatGPT — настоящий рой агентов, выданный в одни руки, за сравнимую стоимость — фантастика. Интересно. Читать далее

https://habr.com/ru/companies/bar/articles/989426/

#машинное_обучение #reinforcement_learning #LLM #мультиагентные_системы #нейросети #искусственный_интеллект #deep_learning #open_source #параллельные_вычисления #Moonshot_AI

Kimi K2.5: Как научить нейросеть не бояться параллельности

Moonshot AI выкатили K2.5. Пресс-релиз трубит про «самую мощную open-source модель», но я бы хотел поговорить о другом — о том, что они сделали с агентами. Начну с конца. Там есть график, который...

Хабр

Habr Jan 14

Открытый репозиторий для изучения онлайн-рекламы: датасет, подборка материалов, симулятор и примеры RL-агентов

Привет, Хабр! Меня зовут Дмитрий Фролов, я ведущий разработчик в Центре компетенций Data Science МТС Web Services. За каждым показом онлайн-рекламы стоит очень сложный механизм. Одно из его ключевых понятий — Real-Time Bidding (RTB). Это аукцион онлайн-рекламы, где решается, какое объявление будет показано пользователю на определенном веб-сайте или в приложении. Особенность RTB — необходимость максимально быстро принять решение, для чего системы обучаются с помощью технологии reinforcement learning (RL). Это достаточно сложная задача — доступных материалов по ней не так много и непонятно, с какой стороны подступиться. Вместе с коллегами мы собрали репозиторий , который может помочь разработчикам погрузиться в специфику онлайн-аукционов. Он содержит датасет с данными RTB, подборку теоретических материалов, симулятор аукционов и примеры работающих RL-алгоритомов. Все подробности и ссылки — под катом.

https://habr.com/ru/companies/ru_mts/articles/984826/

#онлайнреклама #realtime_bidding #reinforcement_learning #оптимизация_ставок

Открытый репозиторий для изучения онлайн-рекламы: датасет, подборка материалов, симулятор и примеры RL-агентов

Привет, Хабр! Меня зовут Дмитрий Фролов, я ведущий разработчик в Центре компетенций Data Science МТС Web Services. За каждым показом онлайн-рекламы стоит очень сложный механизм. Одно из его ключевых...

Хабр

Hacker News Jan 12

Reproducing DeepSeek's MHC: When Residual Connections Explode
https://taylorkolasinski.com/notes/mhc-reproduction/
#ycombinator #Taylor_Kolasinski #ML_systems #machine_learning #reinforcement_learning #robotics #Brooklyn #software_engineer

DeepSeek's mHC: When Residual Connections Explode - Taylor Kolasinski

Taylor Kolasinski - Engineering at FlowMode. ML systems & research, reinforcement learning, robotics. Based in Brooklyn, NY.

Taylor Kolasinski

Habr Dec 23

Reinforcement Learning: Policy gradient methods

В предыдущих статьях Intro Reinforcement Learning и Reinforcement Learning: Model-free & Deep RL были рассмотрены подходы, в которых оптимальные действия находились косвенно через оценку полезности состояний или пар «состояние–действие». Такие методы принято называть value-based. Однако возникает вопрос: зачем строить сложные цепочки через value-функции, если можно напрямую обучать агента выбирать правильные действия? Такой policy-based подход интуитивно кажется проще и естественнее. Здесь о том, как это делается (ﾉ◕ヮ◕)ﾉ

https://habr.com/ru/articles/979394/

#Policy_gradient_methods #ActorCritic #Reinforcement_Learning #rl #Advantage

Reinforcement Learning: Policy gradient methods

Полезные ссылки: Тренировки. Лекция 5: Современные методы обучения с подкреплением. Advantage actor critic, RLHF Practical RL: Policy gradient methods Policy Gradient – Федор Ратников Тест ниже...

Хабр

Habr Dec 18

В России разработали метод ускорения настройки базовых станций 5G с помощью ИИ

Российская компания «Криптонит» (входит в «ИКС Холдинг») разработала метод автоматизации настройки ключевых СВЧ-компонентов базовых станций и ретрансляторов сетей 5G с помощью технологий искусственного интеллекта. Разработка поможет ускорить и упростить процесс производства оборудования для сетей пятого поколения, что особенно важно для крупных городов, где требуется быстрая и точная настройка тысяч базовых станций. Работа выполнена по предложению входящей в «ИКС Холдинг» компании YADRO, одно из направлений деятельности которой — разработка и производство телекоммуникационного оборудования операторского класса. Базовая станция должна одновременно принимать и передавать сигнал через общую антенну. Для этого применяется частотное разделение каналов, за которое отвечает дуплексер. Точность подбора его параметров напрямую влияет на качество связи. При этом настройка дуплексера — трудоёмкий процесс, требующий несколько часов работы опытного специалиста. Одна базовая станция может содержать более десяти радиомодулей и используемых в них дуплексеров. При масштабных установках — в объёме нескольких тысяч станций — потенциальный эффект от автоматизации настройки оценивается в десятки и сотни тысяч часов автоматизированной ручной работы. Для автоматизации настройки разные исследователи пытались применять методы обучения с подкреплением (reinforcement learning, RL), но такой подход давал результат только на упрощённых моделях. В «Криптоните» переформулировали задачу так, что её теперь можно решить традиционным и более надёжным методом — обучением с учителем (supervised learning, SL). Разработанная нейросеть анализирует частотные кривые дуплексера и предсказывает корректировки регулировочных винтов. Дополнительный алгоритм пошагово применяет предсказания нейросети, что снижает риск ошибочной настройки.

https://habr.com/ru/companies/kryptonite/articles/978120/

#reinforcement_learning #supervised_learning #finetuning #5G #автоматизация #дуплексер #диплексер #настройка #базовые_станции

В России разработали метод ускорения настройки базовых станций 5G с помощью ИИ

Российская компания «Криптонит» (входит в «ИКС Холдинг») разработала метод автоматизации настройки ключевых СВЧ-компонентов базовых станций и ретрансляторов сетей 5G с помощью технологий...

Хабр

Boston Dynamics Nov 18

Why Humanoids Are the Future of Manufacturing | Boston Dynamics Webinar
https://www.youtube.com/watch?v=laexcnaTrDM

#youtube_BostonDynamics #boston_dynamics #ai #manufacturing #atlas #webinar #podcast #robots #robotics #artificial_intelligence #humanoid_robotics #ai_robot #embodied_ai #manufacturing_automation #industrial_robots #future_of_robotics #dynamic_robots #ai_updates #nvidia #reinforcement_learning #nvidia_thor #atlas_robot #atlas_humanoid #smart_robots #boston_dynamics_humanoid #humanoid_robots

Why Humanoids Are the Future of Manufacturing | Boston Dynamics Webinar

YouTube

Habr Oct 19, 2025

RL (RLM): Разбираемся вместе

Всем привет! Недавно я познакомился с курсом по глубокому обучению с подкреплением от HuggingFace Deep Reinforcement Learning Course и захотел сделать выжимку самого интересного. Эта статья — своего рода шпаргалка по основам Reinforcement Learning (RL) и одному из ключевых алгоритмов — PPO, который лежит в основе тонкой настройки современных LLM (Large Language Models).

https://habr.com/ru/articles/958062/

#Искуственный_интеллект #Машинное_обучение #Алгоритмы #RLHF #LLM #Большие_языковые_модели #RL #Reinforcement_learning #PPO #Proxi

RL (RLM): Разбираемся вместе

Всем привет! Недавно я познакомился с курсом по глубокому обучению с подкреплением от HuggingFace Deep Reinforcement Learning Course и захотел сделать выжимку самого интересного. Эта статья — своего...

Хабр

Habr Oct 15, 2025

Intro RL

Для меня разобраться в базовых концепциях Reinforcement Learning оказалось не так просто, особенно сложными оказались функции Беллмана. Эта статья — моя попытка систематизировать материал и объяснить себе (и, возможно, другим), что, откуда и почему берется. Будет здорово, если она поможет кому-то разложить все по полочкам.

https://habr.com/ru/articles/919556/

#reinforcement_learning #обучение_с_подкреплением

Intro RL

Для меня разобраться в базовых концепциях Reinforcement Learning оказалось не так просто, особенно сложными оказались функции Беллмана. Эта статья — моя попытка систематизировать материал и объяснить...

Хабр