🚨 NEWS: Supervised, Unsupervised e Reinforcement Learning: fondamentali pratici per il Machine Learning

Ecco i punti chiave in breve:
💡 Hai un dataset con migliaia di righe. Clienti da classificare, vendite da prevedere, prodotti da raggruppare senza sapere le categorie. Ogni problema ha un approccio diverso. Noi di Meteora Web abbiam...

🚀 LINK: https://meteoraweb.com/analisi-dei-dati-e-metriche/supervised-unsupervised-e-reinforcement-learning-fondamentali-pratici-per-il-machine-learning

#machineLearning #supervisedLearning #unsupervisedLearning #reinforcementLearning #python

Arint - SEO+KI (@[email protected])

<p>RT @NVIDIAAIInfra: Agentic AI benötigt einen sicheren Ort zum Handeln.</p> <p><a href="https://arint.info/@Arint/116662944115450416">mehr</a> auf <a href="https://arint.info/">Arint.info</a></p> <p>#AgenticAI #AI #CPU #NVIDIA #ReinforcementLearning #Sandbox #arint_info</p> <p><a href="https://x.com/NVIDIAAIInfra/status/2060481967733260799#m">https://x.com/NVIDIAAIInfra/status/2060481967733260799#m</a></p>

Mastodon Glitch Edition

MARL-GPT: на пути к созданию универсальной модели для многоагентных сред

Привет, Хабр! Задача многоагентного обучения с подкреплением (MARL) возникает всякий раз, когда несколько агентов взаимодействуют в одной среде, чтобы совместными усилиями решить общую задачу. Например, это могут быть футболисты, юниты в StarCraft или просто множество роботов, которым нужно дойти до своих целей в одном лабиринте. Очень часто агенты внутри сред не могут общаться и полагаются только на свои наблюдения. А вот что именно агенты наблюдают и как именно могут действовать — зависит и от среды, и даже от конкретного задания внутри неё. В существующих работах по MARL модель, как правило, обучается под одну среду, и чтобы обучить её на новой среде, архитектуру нужно адаптировать. Мы же поставили перед собой грандиозную цель — создать единую модель (foundation model), которая сможет действовать в разных средах, переносить кооперативные стратегии между ними и легко адаптироваться к новым неизвестным заданиям. Но до этого ещё далеко, и начать нужно с более простого шага, а именно создать модель с единой архитектурой, которая не требует переделки под каждую среду и может обучаться на нескольких средах одновременно. С вами Мария Нестерова из команды «RL агенты» Лаборатории когнитивных систем искусственного интеллекта AIRI. Мы с коллегами создали метод MARL‑GPT — единую модель, которая обучается на датасетах из трёх разных сред. Центральная идея — обрабатывать наблюдение агента как последовательность и использовать для этого архитектуру трансформер. Модель мы впервые представили на воркшопе WoMAPF'26 (Workshop on Multi‑Agent Path Finding, AAAI 2026), а расширенная версия статьи прошла отбор на AAMAS 2026. Ниже краткий рассказ о проблеме, как мы её решали и много гифок.

https://habr.com/ru/companies/airi/articles/1038154/

#ai #reinforcementlearning #multiagent_systems #multitask_learning

MARL-GPT: на пути к созданию универсальной модели для многоагентных сред

Привет, Хабр! Задача многоагентного обучения с подкреплением (MARL) возникает всякий раз, когда несколько агентов взаимодействуют в одной среде, чтобы совместными усилиями решить общую...

Хабр

"Reward magnitude determines #ReinforcementLearning efficiency"

Here‘s the link (paywalled☝️):

📝 https://doi.org/10.1126/science.aeb0813

🍬🐁 🧠 New paper by Gong et al: Larger rewards can make #mice learn much faster than standard low-reward protocols suggest.

Across navigation, motor-skill & #DecisionMaking tasks, reward magnitude improved #learning efficiency by increasing learning rate, sustaining task engagement & helping carry improvements across sessions. Larger rewards also produced stronger, longer striatal #dopamine responses, & #optogenetic DA boosting reproduced part of the effect.

#Neuroscience #ReinforcementLearning

Reinforcement Learning Part 4: Expected Return, Value Functions, and Bellman Equations - Shawn Hymel

In the previous post, we defined a policy, provided the foundational concept of a Markov Decision Process (MDP), and talked about trajectories. We’re going to

Shawn Hymel

How does a #ReinforcementLearning agent decide what to do? Part 3 of my RL series tackles this by defining policies, MDPs and trajectories. We'll keep building up to fully grasping PPO!

https://shawnhymel.com/3328/reinforcement-learning-part-3-policies-markov-decision-processes-mdps-and-trajectories/?utm_source=mastodon&utm_medium=social&utm_campaign=rl_blog

#AI #MachineLearning #robotics #engineering #education

Reinforcement Learning Part 3: Policies, Markov Decision Processes (MDPs), and Trajectories - Shawn Hymel

In the third part of this reinforcement learning (RL) series, we’re going to give a formal definition for a policy and then conceptualize how actions and

Shawn Hymel

🧵 (5/5) In trading, end-to-end latency from sensing the market to executing the action (new order single, amend, cancellation) determines whether the agent's reward signal is meaningful or just random noise.

Cross disciplinary research rocks. More later.

#ReinforcementLearning #AlgorithmicTrading #Latency #JohnCarmack #HighFrequencyTrading #Trading

Progress! Domain randomization is a powerful technique for training robust #ReinforcementLearning agents. The bot now handles pushes like a champ 🦾 I was also able to remove a lot of post-processing (e.g. filters) in my #Arduino code. #robotics #engineering #education #AI #ML